Thám tử dữ liệu

tham-tu-du-lieu-ti-phu

“Thám tử Dữ liệu” của Tim Harford giúp bạn khám phá và hiểu sâu hơn về thống kê và dữ liệu. Quyển sách hướng dẫn cách phân tích dữ liệu chính xác bằng cách loại bỏ thành kiến và cảm xúc cá nhân. Harford cung cấp 10 chiến lược để đọc hiểu dữ liệu hiệu quả hơn, từ việc nhận diện cảm xúc, tin vào dữ liệu hơn trải nghiệm cá nhân, đến việc xem xét ngữ cảnh và chất lượng thống kê. Sách cũng nhấn mạnh tầm quan trọng của số liệu chính thức và duy trì tư duy hoài nghi tích cực.

“Thám tử Dữ liệu” – Giới Thiệu và Tầm Quan Trọng

“Thám tử dữ liệu” là một quyển sách thú vị giúp bạn khám phá thế giới của những dữ liệu thống kê, cách hiểu về thống kê và mức độ sai lệch của dữ liệu so với thực tế. Trong quyển sách, tác giả đã dùng các ví dụ để làm rõ cách bộ não của chúng ta phân tích dữ liệu và đưa ra nhận định như thế nào. Qua đó, tác giả khuyên rằng để đọc hiểu dữ liệu một cách hiệu quả hơn, chúng ta cần loại bỏ những thành kiến và quan niệm sai lầm của chính mình.

Đối Tượng Đọc Giả Của Quyển Sách

  • Những người thích đọc tin tức và mạng xã hội
  • Những người tiêu dùng thích đọc các bài báo và nghiên cứu khoa học
  • Những ai thường xuyên tiếp xúc với dữ liệu hoặc số liệu thống kê

Về Tác Giả Tim Harford

Tim Harford là một nhà kinh tế học, tác giả và là người dẫn chương trình “More or Less” (tạm dịch: Không ít thì nhiều) của đài BBC. Ông cũng là tác giả chuyên mục “The Undercover Economist” (tạm dịch: Thám tử kinh tế) của tờ báo tài chính và là hội viên danh dự của Hội Thống kê Hoàng gia. Ông đã viết nhiều quyển sách về kinh tế học, ví dụ như “The Undercover Economist” (Thám tử kinh tế) và “Fifty Things That Made the Modern Economy” (Tạm dịch: 50 điều tạo nên nền kinh tế hiện đại).

Tóm Tắt Nội Dung Chính

Quyển sách sẽ giúp bạn loại bỏ những điều không đúng sự thật và hiểu đúng về thống kê. Bạn có biết loài cò đẻ con chứ không phải đẻ trứng? Số liệu thống kê đã chứng minh ở những nước có số lượng chim cò cao hơn thì số lượng con non được sinh ra cũng nhiều hơn. Tất nhiên, điều này không đúng, cò không đẻ con. Dù vậy, rất dễ thuyết phục người khác tin vào điều này bằng cách sử dụng các đối số thống kê không chính xác. Nhưng nếu không có dữ liệu thống kê, chúng ta sẽ không thể biết rằng hút thuốc lá làm tăng nguy cơ bị ung thư phổi gấp 16 lần hoặc COVID-19 lây truyền từ người ra người.

Các Chiến Lược Để Đọc Hiểu Dữ Liệu Hiệu Quả Hơn

1. Nhận Diện Cảm Xúc Của Bạn Đối Với Dữ Liệu

Abraham Bredius là nhà phê bình nghệ thuật, nhà sưu tập và chuyên gia nổi tiếng thế giới về hội họa Hà Lan. Ông đặc biệt nghiên cứu nhiều về Johannes Vermeer, bậc thầy của thế kỷ 17 được tôn kính với các tác phẩm như “Cô gái đeo hoa tai ngọc trai.” Một ngày vào năm 1937, một luật sư tên là Gerard Boon đã đến thăm Bredius để cho ông xem một bức tranh của Vermeer có tên là “Chúa ở Emmaus.” Bredius hết sức kinh ngạc, ông đã kiểm tra bức tranh để tìm tất cả các dấu hiệu giả mạo nhưng không tìm thấy gì. Boon tuyên bố bức tranh này đích thực là do Vermeer vẽ nên và là tác phẩm tuyệt vời nhất của ông ấy. Bredius cũng chia sẻ rằng khi nhìn thấy bức tranh, ông khó kiểm soát cảm xúc của mình. Nhưng cuối cùng, “Chúa ở Emmaus” hoàn toàn là giả, thậm chí nó còn không được đánh giá cao về mặt thẩm mỹ, vậy mà Bredius vẫn bị lừa. Ông muốn tin “Chúa ở Emmaus” là một tác phẩm của Vermeer đến mức đã để cảm xúc làm mờ đi lý trí. Tương tự như vậy, chúng ta cũng thường để cảm xúc đánh lừa bản thân về tính xác thực của thông tin.

2. Khi Nào Nên Tin Vào Dữ Liệu Hay Trải Nghiệm Cá Nhân

Tác giả rất hào hứng khi nhận được công việc là MC cho một chương trình radio của đài BBC. Để đi đến nơi làm việc mỗi sáng, ông cần di chuyển từ Đông sang Tây London trên một chiếc xe buýt đông đúc và sau đó là một chuyến tàu điện ngầm. Vì quá mệt mỏi khi đi trên những phương tiện đông đúc, tác giả đã tìm hiểu thêm về hệ thống giao thông công cộng của London. Ông ấy đã bị sốc khi biết rằng sức chứa trung bình của một chiếc xe buýt ở London chỉ là 12 người và trên tàu điện ngầm là dưới 130 người. Những số liệu thống kê đó hoàn toàn sai, chúng hoàn toàn mâu thuẫn với trải nghiệm cá nhân của tác giả. Vậy khi nào nên tin vào dữ liệu và khi nào nên tin vào trải nghiệm cá nhân?

3. Xem Xét Cẩn Thận Những Gì Một Thống Kê Thực Sự Đo Lường

Vào cuối những năm 2010, Vương quốc Anh phải đối mặt với khủng hoảng tỷ lệ tử vong ở trẻ sơ sinh. Tỷ lệ trẻ em tử vong sớm có sự chênh lệch giữa nhiều vùng miền, nhưng không ai biết rõ nguyên nhân tại sao. Cuối cùng, sự khác biệt được xác định là do định nghĩa cụ thể. Tại London, trẻ sinh ra ở tuần thứ 22 hay 23 nên được ghi nhận là sảy thai, nhưng ở vùng trung du nước Anh, những trường hợp này được ghi nhận là tử vong. Điều này khiến cho tỷ lệ tử vong tại các bệnh viện ở London và vùng trung du có sự khác nhau.

4. Đặt Công Bố Thống Kê Vào Ngữ Cảnh Trước Khi Đưa Ra Kết Luận

Vào tháng 4 năm 2018, trên các tờ báo của London từng xuất hiện tiêu đề: “Lần đầu tiên tỷ lệ giết người ở London cao hơn New York.” Nếu chỉ xét về nghĩa đen, tuyên bố này hoàn toàn đúng. Có 14 vụ giết người ở thành phố New York vào tháng 2 năm 2018, trong khi ở London có 15 vụ. Chúng ta có thể kết luận gì từ thống kê đó? Thực sự thì những con số này không cho chúng ta biết gì cả. Để hiểu những gì đang thực sự xảy ra trên thế giới, chúng ta cần xem xét bối cảnh liên quan đến dữ liệu được đề cập.

5. Ngay Cả Nghiên Cứu Khoa Học Cũng Có Thiên Vị

Bạn đã nghe về thí nghiệm nếm mức nổi tiếng do các nhà tâm lý học Sheena Iyengar và Mark Lepper thực hiện chưa? Trong thí nghiệm, các nhà nghiên cứu đã dựng nên nhiều gian hàng nếm thử mức. Một vài gian hàng cung cấp 20 loại mức và những gian hàng khác cung cấp sáu loại. Sau khi những người tham gia nếm thử mức, họ sẽ được tặng một phiếu mua hàng với giá ưu đãi. Những gian hàng lớn có nhiều loại mức đã thu hút được nhiều người đến hơn, nhưng chỉ có 3% khách hàng mua mức, trong khi đó 30% khách hàng đã mua mức ở các gian trưng bày nhỏ. Các nhà tâm lý học kết luận rằng khách hàng phản ứng tích cực khi có ít lựa chọn hơn.

6. Số Liệu Thống Kê Và Dữ Liệu Không Phải Lúc Nào Cũng Đại Diện Cho Tổng Thể

Kết quả của một nghiên cứu nói rằng có rất nhiều người phải chịu áp lực từ việc dung hòa với đồng nghiệp. Nghiên cứu này được nhà tâm lý học Solomon Asch thực hiện vào năm 1950. Ông yêu cầu những người tham gia xem hai hình ảnh: một là hình ảnh của ba đường thẳng có độ dài khác nhau và hình còn lại là một đường thẳng đối chiếu. Nhiệm vụ của họ là tìm ra đường thẳng có độ dài bằng với độ dài đường thẳng đối chiếu. Kết quả cho thấy lựa chọn của những người tham gia thường bị đồng nghiệp của họ tác động. Thí nghiệm này nghe qua thì rất thú vị, nhưng Asch không thể chỉ dựa vào kết quả của thí nghiệm để khái quát về hành vi của con người vì nghiên cứu của ông chỉ giới hạn trong một nhóm dân số cụ thể là sinh viên đại học, là nam, da trắng và là người Mỹ.

7. Duy Trì Thái Độ Hoài Nghi Tích Cực Đối Với Các Thuật Toán Và Dữ Liệu Lớn

Khi được phát hành vào năm 2009, công cụ dự báo dịch cúm của Google, Google Flu Trends, được coi là một công cụ mang tính cách mạng trong việc theo dõi sự lây lan của bệnh cúm theo mùa. Bằng cách đếm số lượt tìm kiếm các triệu chứng cúm và các hiệu thuốc gần tôi, Google có thể ước tính chính xác những trường hợp cúm hàng ngày nhanh hơn CDC (Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ). Từ đó, Google đã mở ra kỷ nguyên mới của dữ liệu lớn và thuật toán.

8. Quan Tâm Đến Số Liệu Thống Kê Chính Thức

Văn phòng Ngân sách Quốc hội được thành lập ở Mỹ vào năm 1974 để cung cấp cho Quốc hội các báo cáo về ngân sách của các đề xuất chính sách. Quá trình này được một quan chức đảm bảo là phải đảm bảo tính khách quan và không gây tranh cãi. Nhưng không phải tổng thống nào cũng chấp nhận ước tính của CBO. Tổng thống Mỹ đầu tiên lên tiếng về cách tính của CBO là Jimmy Carter, người muốn cải thiện hiệu quả năng lượng của Mỹ. Số liệu của CBO chứng minh rằng các đề xuất của Carter sẽ không đạt được kết quả như mong đợi và điều này khiến tổng thống Carter không hài lòng.

9. Đừng Để Bị Đánh Lừa Bởi Các Biểu Đồ

David McCandless, tác giả của cuốn “Information is Beautiful” (Tạm dịch: Thông tin tuyệt đẹp), từng sản xuất một bộ phim hoạt hình ấn tượng. Deus cũng giống như trò chơi máy tính cổ điển Tetris. Deus dùng các khối màu lớn rơi xuống cuối màn hình. Mỗi khối đại diện cho các mảng chi phí khác nhau như ngân sách của Liên Hiệp Quốc, chi phí ước tính của cuộc chiến tranh Iraq năm 2003 và doanh thu của Walmart. Âm nhạc hấp dẫn, đồ họa đầy màu sắc và nhiều sự so sánh đã làm thông tin trở nên sống động và nghệ thuật hơn.

10. Giữ Một Tinh Thần Cởi Mở Và Sẵn Sàng Thay Đổi Ý Kiến

Philip Tetlock là một nhà tâm lý học sinh ra tại Canada. Cùng với một nhóm các nhà khoa học xã hội khác, Tetlock được giao một nhiệm vụ quan trọng đó là ngăn chặn chiến tranh hạt nhân giữa Mỹ và Liên Xô. Do đó, Tetlock đã phỏng vấn vô số chuyên gia để ghi nhận tất cả các khả năng về những gì có thể xảy ra tiếp theo. Tuy nhiên, Tetlock thất vọng khi nhận thấy rằng các chuyên gia đều khư khư giữ quan điểm của mình, không chịu thay đổi ý kiến khi có những bằng chứng trái ngược. Nhiều người thậm chí không ngừng cố gắng biện minh cho những dự báo không chính xác mà họ đã đưa ra trong quá khứ.

Tổng Kết Thông Điệp Chính Từ Quyển Sách

Khi bắt đầu phân tích bất kỳ loại dữ liệu nào, hãy luôn giữ tinh thần minh mẫn và tập trung vào các sự kiện. Nguyên tắc đầu tiên là theo dõi phản ứng cảm xúc của mình đối với thông tin và sẵn sàng thay đổi ý kiến nếu có dữ liệu mới. Nguyên tắc tiếp theo là nên nhìn vào bức tranh toàn cảnh của một thống kê, xem xét đến bối cảnh bao quát, xác định các sai số và những trường hợp loại trừ. Cuối cùng, hãy luôn giữ sự tò mò để tìm hiểu sâu và liên tục đặt câu hỏi.

Lời Khuyên Hành Động: Hãy Ghi Nhớ Vài Con Số Quan Trọng

Doanh nhân Andrew Elliott chia sẻ rằng chúng ta nên ghi nhớ những con số quan trọng để dễ dàng hiểu được tầm quan trọng tương đối của các con số khác. Ví dụ, dân số của Hoa Kỳ là khoảng 335 triệu người (năm 2022), của Vương quốc Anh là khoảng 68 triệu người (thống kê năm 2022). Boston cách Seattle khoảng 5.000 km. Độ dài trung bình của cuốn tiểu thuyết là 100.000 từ. Những số liệu này sẽ giúp bạn có cơ sở để so sánh. Ví dụ, một báo cáo 10.000 từ có vẻ dài, nhưng vẫn ngắn hơn 10 lần so với tiểu thuyết thông thường.

Trần Trung Trực

Trần Trung Trực

Leave a Replay

Đăng ký nhận tin

Click edit button to change this text. Lorem ipsum dolor sit amet, consectetur adipiscing elit