Nếu như được quay lại thời đi học để nhắc nhủ bản thân trong quá khứ nên tập trung học môn nào nhất, thì chắc chắn mình sẽ chọn Statistics and Probability – Xác suất thống kê. Khổ nỗi “Harvard VN” chỉ lo dạy cách làm toán, điều mà bất kì software nào hiện nay đều làm được, mà ko nói về những lợi ích và tiềm năng to lớn của Statistics mang lại nên mình lúc đó chẳng hứng thú tí nào cả.

Giá như lúc đó mình biết tới những ứng dụng của nó sớm hơn, hoặc ít nhất đọc được cuốn sách này – Naked Statistics của Charles Wheelan thì chắc mình đã học nó với 1 tâm thế khác. Sách ko nói về công thức hay lí thuyết nhiều mà chủ yếu nói về tính ứng dụng của thống kê vào cuộc sống. 1 vài ví dụ trong sách và từ chính trải nghiệm của mình về Statistics thú vị có thể kể đến như:

  1. Basic Probability – Monty Hall Problem: 1 trò chơi kinh điển về xác suất do host Monty Hall tạo ra, vốn là 1 gameshow mang tên Let’s make a deal những năm 70. Luật chơi rất đơn giản: có 3 cánh cửa, trong đó có 1 cửa dẫn đến phần thưởng cực kì giá trị, 2 cánh cửa còn lại thì chẳng có gì cả. Người chơi được chọn 1 trong 3 cánh cửa đó. Giả sử rằng bạn chọn cửa số 1. Người dẫn chương trình Monty Hall tiến tới mở cửa số 3 và thật may mắn, cửa số 3 không có gi cả (có nghĩa phần thưởng nằm ở cửa số 1 hoặc số 2). Lúc này, ông ta quay sang bạn và hỏi: “Bạn có muốn thay đổi lựa chọn của mình không?”. Bạn sẽ làm gì, đổi hay không? Câu trả lời là bạn nên đổi, vì như thế sẽ tăng khả năng chiến thắng của bạn thêm 33,33%. Lí do tại sao thì hãy thử tự suy nghĩ hoặc google đi nhé!
  2. Normal Distribution – Tại sao VN phát hiện ra gian lận thi cử ở Sơn La, Hòa Bình chỉ nhờ 1 cái biểu đồ bell-shaped (hình chuông)? Đây gọi là phân phối chuẩn, và có rất nhiều thứ trên đời nay tuân theo phân phối chuẩn, tức là phân bố nhiều ở chính giữa, và ít dần khi lên cao hoặc xuống thấp. Chiều cao, cân nặng, thu nhập, điểm thi,.. đều tuân theo phân phối chuẩn này. Vì vậy, việc có 1 nhóm nhỏ thí sinh ở Sơn La và Hòa Bình có điểm cao bất thường khiến cho đường phân phối “nhô lên” ở phần đuôi bên phải khiến người ta không khỏi nghi ngờ. Bạn có thể xem biểu đồ minh họa và phân tích tại đây:
    https://vietnammoi.vn/bieu-do-chi-ra-su-bat-thuong-khung-khiep-diem-thi-mon-toan-cua-ha-giang-119231.htm?fbclid=IwAR1Rn84n_uSHOcSpKaAG8XvOjNWUnSNMI4-_eh8tRX3XKw5G86R1bxuIcwU
  3. Expected Value – Hãy suy nghĩ kĩ khi mua sổ xố hoặc tốn tiền mua “bảo hành vàng” cho cái iPhone mà các cửa hàng chào mời. Đây là ứng dụng của Expected Value, được tính bằng tổng giá trị của tất cả outcome có thể xảy ra. Hãy lấy ví dụ cửa hàng ĐT chào mời bạn bỏ thêm 500K để được bảo hành toàn diện thêm 1 năm nữa. Nếu như ko mua gói bảo hành này và có sự cố xảy ra, số tiền bạn sẽ phải bỏ ra để sửa chữa có thể lên đến 5 triệu. Bạn sẽ chấp nhận bỏ thêm 500K chứ? Bạn phải hiểu rằng xác suất để 1 chiếc điện thoại xảy ra hư hỏng trong thời gian cửa hàng chào mời bảo hành có thể chỉ là 1/100,000. Expected Value của offer này thật sự là 5tr x 1/100,000 = 50K. So với số tiền đầu tư ban đầu là 500K thì về mặt lâu dài, bạn sẽ luôn mất tiền và cửa hàng luôn sinh lợi.
  4. Central Limit Theorem (CTL) và Confidence Interval – Tại sao người ta có thể rút ra những kết luận như “69% phụ nữ VN thích xem phim XXX” (just kidding) chỉ thông qua việc khảo sát 1 nhóm sample nhỏ. Rõ ràng, việc đi khảo sát tất cả phụ nữ VN là bất khả thi. Đây là 1 trong những khái niệm khó để giải thích cho những ai ko học Statistics nhất nên mình cũng không nói sâu được. Có thể giải thích tóm lược cách ứng dụng như sau. Giả sử bạn muốn biết thu nhập trung bình của toàn thể dân số HCM. Lúc này, bạn sẽ lấy 1 số lượng sample (càng lớn càng tốt, tối thiểu n=30) để khảo sát và phải đảm bảo việc chọn sample này là ngẫu nhiên, ko bị biased. Sau đó tính toán 1 số metrics như sample mean, standard error,.. thì bạn sẽ có thể đưa ra 1 kết luận như: với độ tin cậy (confidence level) 95%, thu nhập trung bình của dân số HCM nằm trong khoảng khoảng tin cậy (confidence interval) từ [6tr – 8tr].

Và còn rất nhiều ứng dụng khác, vốn là nền tảng của ngành Data Science như Linear Regression – ông tổ của Machine Learning, Correlation để đánh giá độ tương quan của 2 biến, Hypothesis Testing để làm A/B Testing hoặc kiểm định xem 1 kết luận nào đó có ý nghĩa về mặt thống kê hay không.

Hy vọng các bé sinh viên trường F nói riêng và dân kinh tế nói chung sẽ thích học thống kê hơn nếu biết được ý nghĩa thật sự của bộ môn này. Đừng như mình bị đá đít ra khỏi trường rồi lại phải bỏ tiền ra để mua SGK về học lại.

LEAVE A REPLY

Please enter your comment!
Please enter your name here