datacracy (beta)

Recap Talk#4: Tương quan hay là Nhân quả?

Recap Talk#4: Tương quan hay là Nhân quả?
DATAcracy là dự án tích luỹ và lan toả kiến thức về dữ liệu, bao gồm thường thức cho mọi người và các kiến thức chuyên sâu về dữ liệu. Bắt đầu từ 2020 và trở lại trong 2023 với chuỗi 08 data talks diễn ra vào các thứ bảy cách tuần. Mời bạn theo dõi facebook DATAcracy để đăng ký tham gia.

Dẫn nhập

Trong Data Talk#4, chúng ta nói về một chủ đề quen thuộc và kinh điển của thống kê, và cũng là nền móng của phân tích và các kỹ thuật dữ liệu nâng cao: Tương Quan (Correlation).

Tương Quan (Correlation) vốn được “thiết kế” để mô tả mối quan hệ giữ các yếu tố (thể hiện dưới dạng biến số). Mối quan hệ mà "Correlation" mô tả không nhất thiết là… Quan hệ Nhân quả (Causation), nghĩa là điều gì dẫn tới điều gì.

Trong rất nhiều tình huống, quan hệ được nhiều người muốn tìm hiểu nhất lại là Nhân quả (chứ không phải chỉ là Tương quan). Bởi, một khi có thể xác định quan hệ Nhân quả, chúng ta có thể thay đổi kết quả bằng việc tác động lên nguyên nhân (Tương quan thì không chắc).

Nội dung của Talk#4 sẽ giới thiệu về Tương quanNhân quả, cùng các nỗ lực thông qua các phương pháp được thiết kể, để tiệm cận với Nhân quả.

Tương quan là gì?

Tương quan là một chỉ số để đo lường mối quan hệ giữa hai biến số trong dữ liệu.
  • Hai biến số có thể là hai cột bất kỳ trong một bộ dữ liệu
  • Có hai chiều hướng tương quan giữa hai yếu tố:
    • (i) Tương quan dương: Tăng cùng tăng, giảm cùng giảm;
    • (ii) Tương quan âm: Cái này tăng thì cái kia giảm, và ngược lại
  • Chỉ số tương quan tính toán giữa trên biến thiên giá trị của hai biến, trả ra kết quả từ:
    • -1 cho tương quan âm tuyệt đối,
    • 1 cho tương quan dương tuyệt đối, và
    • Gần về 0 cho các biến không có tương quan rõ ràng

Lab: GDP và Tuổi thọ trung bình

💡
Để minh hoạ cho khái niệm này, Talk#4 giới thiệu hoạt động Lab: GDP và Tuổi thọ trung bình.

Dữ liệu được lấy từ ourworldindata.org “GDP đầu người và tuổi thọ trung bình các quốc gia”, gồm: Chỉ số GDP đầu người và tuổi thọ trung bình của nhiều quốc gia qua các năm.

Đồ thị điểmChỉ số tương quan được tính toán thông qua công cụ Google Spreadsheet.

Ta thấy đồ thị điểm của GDP đầu ngườiTuổi thọ thể hiện xu hướng Tương quan dương: Khi GDP đầu người càng tăng thì tuổi thọ cũng tăng, điều này có thể giải thích bằng nhiều yếu tố: Khi thu nhập tăng, điều kiện y tế cơ bản được cải thiện, chất lượng cuộc sống tốt hơn.

Từ biểu đồ điểm đến Chỉ số tương quan

Mỗi hình dạng khác nhau của Biểu đồ điểm tương ứng với các giá trị từ -1 đến 1 của Chỉ số tương quan.
💡
Để hiểu thêm về Tương Quan, chúng tôi giới thiệu trò chơi ”Nhìn biểu đồ, đoán chỉ số Tương Quan”.
  • Tương quan dương: Dữ liệu tạo thành biểu đồ điểm theo chiều hướng dốc lên, tưởng tượng có thể vẽ một đường xuyên qua đám điểm như dấu Sắc trong tiếng Việt, /). Càng dốc, thì chỉ số càng gần về +1
  • Tương quan âm: Dữ liệu tạo thành biểu đồ điểm theo chiều hướng dốc xuống, có thể vẽ một đường xuyên qua đám điểm như dấu Huyền trong tiếng Việt, \). Càng dốc, thì chỉ số càng gần về -1
Chỉ số Tương Quan là một khái niệm và công cụ phân tích “hấp dẫn”, bởi tính đơn giản và trực quan, cho ta một con số tóm gọn cả: Chiều hướng và Độ mạnh-yếu của mối quan hệ.

Thiếu sót của tương quan

Bởi tính đơn giản, chỉ số tương quan khó tránh những thiếu sót xong việc mô tả và thể hiện mối quan hệ vốn phức tạp giữa các yếu tố. Bởi tính tiện dụng, chúng ta đôi khi khó tráng việc “lạm dụng”, dẫn tới kể một câu chuyện “sai” từ dữ liệu.

Club 27: Trường phái âm nhạc và Tuổi thọ

Club 27 ("Câu lạc bộ mãi mãi tuổi 27"): Được dùng để chỉ nhóm các nhạc sĩ nhạc Rock và Blues nổi tiếng qua đời trước hoặc vào năm 27 tuổi.

Biểu đồ và chart trong ví dụ trên, kể câu chuyện Tương quan về thể loại nhạc và tuổi thọ trung bình khi qua đời của các nghệ sĩ:

  • Bên tay trái của đồ thị là các dòng nhạc cổ điển như Blues, Jazz, Country: Nhóm nghệ sĩ nổi tiếng nhất theo các dòng nhạc này thường qua đời ở độ tuổi 60-65 tuổi, bởi các lý do sức khoẻ như ung thư, bệnh tim mạch
  • Dần sang phía tay phải của đồ thị là các dòng nhạc như Metal, Rap, Hiphop: Nhóm nghệ sĩ của các dòng này lại qua đời ở độ tuổi trẻ hơn hẳn tầm 25-35 tuổi, với các lý do như bị ám sát, tự tử, tai nạn.

Ngang đây, trong Talk#4, DATAcracy đã dừng lại để trao đổi cùng các bạn tham gia. Nhiều lý do giải thích được đưa ra:

  • Do các nghệ sĩ Rap/Hiphop thường thuộc cộng đồng da màu, sinh sống trong các khu đường phố dẫn tới nhiều nguy cơ bị sát hại
  • Các nghệ sĩ thuộc các dòng nhạc Punk, Metal thường có cá tính mạnh nên có những lựa chọn cực đoan hơn như tự tử, hoặc vướng vào các tai nạn.
Đây chính là điểm "nguy hiểm" của Tương quan trong Dữ liệu, chúng ta dễ có xu hướng lựa chọn những niềm tin và định kiến có sẵn để giải thích cho kết quả chỉ số tương quan cao, và vì vậy... kể một câu chuyện sai lệch sự thật.

Cùng một chỉ số, nhiều “câu chuyện”

Vấn đề nằm trong cách so sánh độ tuổi qua đời, ở các dòng nhạc có độ dài lịch sự khác nhau. Các dòng nhạc mới như Punk, Metal, Rap và Hip hop chỉ thịnh thoảng khoảng vài chục năm gần đây, trong khi các dòng nhạc Blues hay Jazz có tuổi đời lên đến trăm năm.

Các nghệ sĩ nổi tiếng trong các dòng nhạc mới đều còn trẻ (dưới 50 tuổi) và phần lớn đều… còn sống. Với các nghệ sĩ đã qua đời, hiển nhiên họ qua đời ở độ tuổi trẻ hơn, với các lý do cũng “bi kịch” hơn.

Bên dưới là ví dụ về 03 trường hợp với chỉ số tương quan ngang nhau nhau (~0.5) nhưng chi phối bởi các quy luật hoàn toàn khác nhau.

Khi nào ta cần lo lắng về nhân quả?

Những hạn chế nhắc chúng ta cần cẩn trọng với phân tích Tương Quan , nhưng không có nghĩa “công cụ” này vô tác dụng. Trong phần lớn các trường hợp, chỉ cần so sánh Tương Quan trên một dữ liệu đủ lớn là đủ.

Ta quan tâm và chấp nhận cái giá về nguồn lực và sự phức tạp để theo đuổi Phân tích nhân quả khi kết quả đầu ra để phục vụ cho một quyết định quan trọng (cần hạn chế sai sót), và Cấu trúc quan hệ gồm nhiều yếu tố liên quan, tác động qua lại phức tạp.

Phân tích nhân quả

Nhân quả chỉ có thể đo lường tuyệt đối trong trạng thái Phản thực (Counter-factual), tức là so sánh kết quả của một tác động lên một cá nhân so với “bản sao” của chính cá nhân đó ở trạng thái không tác động (“phản thực”).

Các phương pháp Phân tích Nhân quả được thiết kế nhằm tạo ra trạng thái “giả lập” phản thực, để “ước tính” tác động nhân quả.

Phản thực (counter-factual) và AB testing

A/B testing là một trong những phương pháp Phân tích Nhân quả phổ biến nhất. Khác với những phương pháp được giới thiệu bên dưới, A/B là phương pháp thực nghiệm, được thiết lập cách chọn mẫu và phân phối tác động TRƯỚC khi thu thập dữ liệu.

Nguyên tắc quan trọng nhất của A/B testing là chọn mẫu cho tập A (“tác động”) và tập B (“đối chứng”) phải diễn ra ngẫu nhiên trên một mẫu đủ lớn.

Khi A/B testing thoả mãn hai nguyên tắc này, ta sẽ có được mẫu A và B mang tính đại diện cho toàn thể (“mẫu đủ lớn”) và tương đồng nhau (“tính ngẫu nhiên”) ở góc độ tập thể và mang tính đại diện cho toàn thể.

Ta có được trạng thái “giả lập” phản thực khi so sánh kết quả quan sát trên nhóm A và B.

Khi AB bất khả thi: Khủng bố ở Basque

Không phải vấn đề nào cũng có thể áp dụng A/B testing, vốn đòi hỏi các thiết lập và định đoạt việc phân phối tác động trước khi thu thập dữ liệu.

Ví dụ, tác động nhân quả của khủng bố chính trị lên GDP - Đây là vấn đề không thể kiểm soát được việc khi nào và ở đâu sẽ xảy ra, không thể nghiên cứu bằng A/B testing.
💡
Bên dưới giới thiệu ví dụ từ bộ dữ liệu Basque, gồm các thông tin về kinh tế của 17 vùng thuộc Tây Ban Nha, từ năm 1955-1997. Bao gồm xứ Basque, nơi xảy ra cuộc khủng bố những năm 1970s. Ta quan tâm giai đoạn khủng bố này tác động lên kinh tế (thể hiện qua GDP đầu người) như thế nào?
Nếu suy nghĩ rất đơn giản, chúng ta có thể thử so sánh GDP đầu người trước và sau giai đoạn khủng bố. Làm vậy, ta sẽ thấy GDP đầu người sau giai đoạn này cao hơn so với trước đo. Rồi, ta kết luận… khủng bố giúp kinh tế phát triển.

“Sai lầm” này xảy ra, khi chúng ta chỉ nhìn vào mối quan hệ giữa GDP đầu người và trước-sau giai đoạn khủng bố, ta quên mất yếu tố Thời gian. Dù không có điều gì xảy ra, GDP đầu người sẽ tăng đều theo thời gian. Hay, nói cách khác, nếu không có giai đoạn khủng bố, rất có thể thời điểm từ 1980 trở đi, GDP đầu người ở Basque còn có thể cao hơn nữa.

Để ước tính tác động của khủng bố lên GDP đầu người, ta phải so sánh Basque với chính Basque khi khủng bổ xảy ra và… không xảy ra.

Difference-in-Difference

Trong dữ liệu của số 17 vùng của Tây Ban Nha, chúng ta “phát hiện” ra có vùng Cataluna có xu hướng tăng trưởng khá tương đồng với Basque.

Như đồ thị, sau giai đoạn khủng bổ, GDP đầu người của Basque giảm xuống thấp hơn so với Cataluna. Điều kiện này cho ta một trạng thái bán thực nghiệm (gọi là “bán” vì ta không thể chủ động tạo ra quan sát này trong thực tế mà lệ thuộc vào sự ngẫu nhiên của số phận), cho phép ra “ước tính” nhân quả bằng cách so sánh BasqueCataluna.

Ước tính tác động = GDP(Basque - Cataluna) sau khủng bố - GDP(Basque - Cataluna) trước khủng bố

Ta so sánh khác biệt của khác biệt giữa hai vùng có xu hướng tương đương trước và sau khủng bố, vì vậy phương pháp này có tên là Difference-in-Difference.

Nhóm đối chứng nhân tạo (Synthetic control)

Nếu ta không may mắn tìm ra được một vùng “tương đồng” như Cataluna?

Ta có thể dùng mô hình “học” trên tất cả chuỗi thời gian GDP đầu người của các vùng, cùng với nhiều yếu tố quan sát được trong bộ dữ liệu, để tạo ra một quan sát “đối chứng nhân tạo” (Synthetic control).

Ta coi “đối chứng nhân tạo” là giả lập quan sát phản thực của Basque, và so sánh để “ước tính” tác động nhân quả.

Uber Eats: Đơn hàng bị huỷ

Trở lại với một ví dụ thực tế hơn và “business” hơn.

Uber Eats muốn đo đạt tác động của việc đơn hàng bị giao trễ và mức độ trung thành của khách hàng.

Nếu suy nghĩ rất đơn giản, ta so sánh các khách hàng có và không có đơn giao trễ. Bạn sẽ có thể ngạc nhiên rằng: Các khách hàng có đơn giao trễ, lại có nhiều tương tác hơn, sử dụng dịch vụ lâu năm hơn, có nhiều đơn đặt hàng hơn.

Vì sao?

Khi khách hàng có càng nhiều đơn hàng, sử dụng dịch vụ càng lâu, thì họ càng dễ gặp phải các trải nghiệm nhận đơn hàng trễ trên suốt hành trình sử dụng.

Để ước tính nhân quả, Uber Eats đã sử dụng phương pháp: Diff-in-Diff, Synthetic control (như trong ví dụ Basque), và kỹ thuật Bayesian structural time-series để bóc tách các biến đổi trong cấu trúc thời gian của chính khách hàng bị tác động để ước tính tác động nhân quả.

Lab: Mô hình nhân quả cấu trúc (SCMs)

💡
Talk#4 khép lại với với hoạt động Lab giới thiệu thư viện CausalNex với mô hình nhân quả cấu trúc Structural Causal Models (SCMs).

Phương pháp này học và biểu diễn cấu trúc Nhân Quả dưới dạng đồ thị DAG:

  • DAG = Directed (có hướng) + Acyclic (Một chiều) + Graph (Đồ thị)
  • Các yếu tố biểu thị là một Node (Nốt)
  • Các mối quan hệ tác động thể hiện là Edge (Cạnh)
  • Khi một yếu tố dẫn đến một yếu tố thì đó được xem có tính nhân quả (Yếu tố gây ra là parent node, yếu tố hệ quả là child node)

Kết

  1. Chỉ số Tương quan dùng để đo lường mối quan hệ giữa hai biến số trong dữ liệu, có giá trị -1 cho tương quan âm tuyệt đối, 1 cho tương quan dương tuyệt đối, và gần về 0 cho các biến không có tương quan rõ ràng
  2. Chỉ số Tương quan có thể truyền đạt một câu chuyện sai lệch. Với các tình huống: (1) Tác động qua lại giữa các yếu tố phức tạp, với nhiều yếu tố liên quan; (2) Kết quả sử dụng cho những quyết định quan trọng. Chúng ta cần cẩn trọng và cân nhắc các phương pháp Phân tích Nhân quả cao cấp hơn
  3. Tác động nhân quả chỉ có thể đo lường tuyệt đối trong trạng thái Phản thực (Counter-factual). Các phương pháp Phân tích Nhân quả được thiết kế nhằm tạo ra một trạng thái “giả lập” phản thực.
  4. Nguyên tắc quan trọng nhất của A/B testing là chọn mẫu cho tập A (“tác động”) và tập B (“đối chứng”) phải diễn ra ngẫu nhiên và thu thập một mẫu đủ lớn. Đây là phương pháp “thực nghiệm” (làm chủ việc phân bổ tác động)
  5. Difference-in-Difference: so sánh khác biệt của khác biệt giữa hai cá thể có xu hướng tương đương trước và sau tác động, đây là phương pháp “bán thực nghiệm”
  6. Synthetic control (“đối chứng nhân tạo”): Bằng dữ liệu và các quan sát khác nhau, tạo ra “đối chứng nhân tạo” là giả lập quan sát phản thực
  7. Structural Causal Model: Sử dụng các kỹ thuật phân tích nâng cao để “học” và mô hình hoá cấu trúc mối quan hệ nhân quả

📘
DATAcracy, bạn có thể đóng góp để dự án đem lại nhiều giá trị hơn nữa cho người tham gia.

About the author
Anh Dang

Anh Dang

Content creator & Co-founder of DATAcracy. Thích viết lách, học hỏi và tìm tòi. Mong sẽ viết ra những điều hữu ích cho mọi người.

DATAcracy (BETA): Everyone can data (soon)

All knowledge resource of DATAcracy in one place

datacracy (beta)

Great! You’ve successfully signed up.

Welcome back! You've successfully signed in.

You've successfully subscribed to datacracy (beta).

Success! Check your email for magic link to sign-in.

Success! Your billing info has been updated.

Your billing was not updated.