Giới báo chí Việt Nam
có lẽ là một trong những nhóm thích dùng thống kê trong các bản tin nhất
thế giới. Mở đầu cho bài viết “Tham nhũng học thuật”, phóng viên viết
“Chỉ riêng vụ ‘luộc’ hai cuốn sách Nguyên lý bảo hiểm và Tài chính quốc
tế của trường Đại học Kinh tế TPHCM, đã có tới 7 giảng viên của khoa Tài
chính Ngân hàng trường Đại học Công nghiệp TPHCM can dự (chiếm 32% tổng
số 22 giảng viên của khoa)”.
Mới đây, trong loạt bài phản ảnh về những trăn trở và
khó khăn của du học sinh khi về làm việc ở Việt Nam, phóng viên cho
biết: “83% du học sinh về nước không hài lòng với lương, thưởng”. Viết
về nguyên nhân tử vong ở trẻ em, báo khẳng định: “50% trẻ em tử vong do
đuối nước”. Có phóng viên còn chạy một cái tít chính xác đến 2 số thập
phân như “31,48% sinh viên chưa nắm được thế nào là nghiên cứu khoa
học”. Ít thấy báo chí nào trên thế giới chịu khó trình bày nhiều số phần
trăm, mà có chính xác đến số lẻ, như báo chí ở nước ta.
Những con số thống kê thường được sử dụng để tạo sự
quan tâm của công chúng về những vấn đề xã hội. Những con số thống kê
vừa liệt kê trên được thu thập và tính toán với mục đích nói cho chúng
ta biết rằng tình trạng “đạo sách” lan tràn trong giới khoa bảng, nhiều
sinh viên chẳng biết nghiên cứu khoa học là gì, đa số du học sinh không
hài lòng với lương bổng ở trong nước, và quan trọng hơn là đuối nước là
nguyên nhân gây nên 50% tử vong ở trẻ em.
Những vấn đề mà phóng viên dùng số thống kê để nêu
đúng là rất quan trọng, và công chúng khó có thể bỏ qua được. Nhìn như
thế, chúng ta thấy con số thống kê quả là đóng vai trò quan trọng trong
việc thuyết phục công chúng về các vấn đề xã hội.
Nhưng trước khi bị thuyết phục bởi những con số
thống kê, chúng ta cần phải tìm hiểu bối cảnh ra đời của chúng, nói nhại
theo một nhà xã hội học Mỹ, tôi nghĩ con số thống kê như là một cái áo
dài của người phụ nữ, những gì nó tiết lộ thì thú vị đấy, nhưng những gì
nó giấu giếm mới là quan trọng. Con số thống kê cũng vậy, nó là sản
phẩm của xã hội, của con người, cho nên nó cũng chịu sự chi phối bởi
tình cảm và chủ quan của tác giả tạo ra nó. Người đọc, do đó, cần phải
tìm hiểu kỹ những bối cảnh này trước khi chấp nhận ý nghĩa của con số
thống kê. Những khía cạnh cần tìm hiểu là vấn đề con số phản ảnh, phương
pháp đo lường, nguồn gốc của dữ liệu, và cách diễn giải dữ liệu thống
kê.
Con số phản ánh gì?
Trước hết là vấn đề mà con số thống kê phản ảnh.
Chúng ta thử quay lại cái tít “31,48% sinh viên chưa nắm được thế nào là
nghiên cứu khoa học”. Bản tin cho biết con số này xuất phát từ một cuộc
phỏng vấn trên 1.000 sinh viên năm thứ ba thuộc Đại học Cần Thơ vào năm
2009. Nhưng vấn đề đặt ra là định nghĩa của “nghiên cứu khoa học” và
thế nào là “hiểu chính xác”. Nghiên cứu khoa học là một quy trình, và
quy trình này có thể thay đổi tùy theo lĩnh vực khoa học.
Vì thế làm thế nào mà hiểu chính xác được quy trình? Ở
đây, chỉ có hiểu đúng và hiểu sai mà thôi, chứ tôi nghĩ không có hiểu
chính xác được. Chú ý rằng tuy nghiên cứu được thực hiện ở Cần Thơ,
nhưng cái tít thì lại hàm ý khái quát cho sinh viên của cả nước, thậm
chí cả thế giới! Nếu mục tiêu là thu hút chú ý của bạn đọc thì cái tít
đã thành công một mức độ nào đó, nhưng nếu mục tiêu là cung cấp thông
tin chính xác cho người đọc, thì tôi e rằng bài báo chưa đạt được mục
tiêu.
Đo lường ra sao?
Thứ hai là vấn đề đo lường. Một con số thống kê chỉ
đáng tin cậy nếu phương pháp đo lường chính xác và có độ tin cậy cao.
Chẳng hạn như trong trường hợp “50% trẻ em tử vong do đuối nước”, câu
hỏi lặp tức đặt ra là định nghĩa thế nào là “đuối nước” và đo lường ra
sao, ai là người báo cáo tử vong (chắc chắn trẻ em đã chết không báo cáo
được!), và nếu thân nhân báo cáo thì độ tin cậy cỡ nào.
Trước đây, báo chí Mỹ rầm rộ đưa tin về một nghiên
cứu cho thấy 80% con cái của những cặp cha mẹ ly dị không có vấn đề gì
khi trưởng thành và thích nghi tốt với xã hội, nhưng khi được hỏi “thích
nghi với xã hội,” hay “trưởng thành,” có nghĩa là gì thì giới báo chí
không trả lời được. Tình trạng ly dị thì dễ trả lời và không thành vấn
đề, bởi vì nó là một hồ sơ hay tình trạng mà phần lớn ai cũng có thể xác
nhận khá chính xác. Nhưng làm sao để xác định và định nghĩa thế nào là
thích nghi với xã hội mới là một vấn đề quan trọng trong chương trình
nghiên cứu.
Đây là một phạm vi mang tính định tính (qualitative)
mà nhà nghiên cứu khó có thể đo lường một cách chính xác và khách quan
như trong trường hợp của huyết áp, chiều cao cơ thể, hay màu da, sắc áo.
Người ta chắc sẽ không ngạc nhiên nếu một nghiên cứu phát hiện rằng một
người nào đó hoàn toàn hài lòng với cuộc sống và thích nghi với xã hội,
mặc dù anh ta đang nghiện rượu, hay đã trải qua nhiều lần ly dị trong
đời, trong khi một nghiên cứu khác có thể phát hiện rằng một người nào
đó hoàn toàn có một cuộc sống gương mẫu nhưng lại không hài lòng với
cuộc sống hiện tại!
Dữ liệu từ đâu?
Thứ ba là vấn đề nguồn gốc dữ liệu. Quay trở lại bài
báo “50% trẻ em tử vong do đuối nước” chúng ta chỉ biết “Đây là thông
tin từ báo cáo tổng hợp về phòng chống tai nạn thương tích trẻ em tại
Việt Nam do Bộ Lao động – Thương binh và Xã hội phối hợp với Quỹ Nhi
đồng Liên hợp quốc” công bố. Nhưng chúng ta cần phải biết bối cảnh ra
đời của con số này là gì. Một loạt câu hỏi đặt ra: đối tượng nghiên cứu
là ai, ở đâu, vào thời gian nào?… Nhưng rất tiếc là bản tin hoàn toàn
không cung cấp thêm thông tin nào về báo cáo này.
Cũng là vấn đề nguồn gốc, trong bài báo “83% du học
sinh về nước không hài lòng với lương, thưởng”, phóng viên cho biết,
“đối tượng khảo sát gồm các nhóm chính: du học sinh đã tốt nghiệp, đã và
sẽ về nước làm việc; du học sinh đã tốt nghiệp, đã và sẽ ở lại làm việc
tại nước sở tại và du học sinh chưa tốt nghiệp có nguyện vọng thực
tập”. Chúng ta thấy rõ ràng có sự mâu thuẫn. Trong khi cái tít của bài
báo đề cập đến du học sinh về nước, thì đối tượng nghiên cứu lại gồm du
học sinh sắp về nước và sắp tốt nghiệp!
Thật ra, đọc kỹ bài báo thì thấy thông tin phức tạp
hơn, và có thể tóm lược như sau: trong số 350 du học sinh được phỏng
vấn, có một số đã tốt nghiệp và một số chưa tốt nghiệp, nhưng chúng ta
không biết con số này. Trong số đã tốt nghiệp, 64% quyết định ở lại nước
sở tại, và 36% về Việt Nam. Trong số đã tốt nghiệp và về Việt Nam, “83%
chưa hài lòng về chuyện lương, thưởng”. (Phóng viên lấy con số này làm
tiêu đề, nhưng chú ý trong tiêu đề thì viết là “không hài lòng” còn bài
viết là “chưa hài lòng”!)
Giả dụ như có 50% sinh viên đã tốt nghiệp, thì con số
đã về Việt Nam là 375*0.5*0.36 = 63 người. Trong số 63 người này, có 52
người (63*0.83) chưa hài lòng với lương bổng ở Việt Nam. Nếu 52 người
mà phóng đại lên 83% thì tôi e rằng phạm vào lỗi khái quát hóa.
Diễn giải có đúng?
Thứ tư là vấn đề diễn giải dữ liệu. Quay trở lại tiêu
đề “50% trẻ em tử vong do đuối nước” chúng ta có thể hiều rằng trong
tổng số trẻ em tử vong, phân nửa là do đuối nước. Có thể nào tin rằng
đuối nước gây ra phân nửa tử vong ở trẻ em ở Việt Nam? Thật ra, chưa có
bất cứ một nghiên cứu nào nói như thế. Tôi có thể khẳng định rằng con số
này chắc chắn đã được trình bày sai, hoặc trình bày đúng nhưng nghiên
cứu sai, hoặc diễn giải sai số liệu.
Một trong những sai lầm phổ biến trong diễn giải dữ
liệu là vượt ra ngoài dữ liệu quan sát. Chẳng hạn như nếu một phân tích
về mối tương quan giữa tiểu đường và bệnh nhân có trọng lượng dưới 50 ki
lô gam, thì kết quả không thể phát biểu cho người có trọng lượng trên
50 ki lô gam.
Con số phần trăm thường hay bị diễn giải sai. Con số
phần trăm là kết quả của tử số chia cho mẫu số và nhân cho 100. Một
trong những cái sai tiêu biểu và rất phổ biến là tính phần trăm cho mẫu
số thấp hơn 100. Chẳng hạn như bài báo cho biết trong số 22 giảng viên
của khoa Tài chính Ngân hàng trường Đại học Công nghiệp TPHCM, có 7
người can dự vào việc “luộc sách”, và phóng viên cho rằng 32% giảng viên
luộc sách (tức lấy 7 chia cho 22 và nhân cho 100).
Vấn đề ở đây là chỉ số 22 giảng viên, nhưng nhà báo
nhân lên thành 100 để cho có con số phần trăm, và đây là lỗi lầm về khái
quát hóa ngoài dữ liệu cho phép. Đáng lẽ chỉ cần nói chính xác rằng 7
trong số 22 người bị nghi ngờ luộc sách là đủ, đâu cần gì phải nói đến
con số 32%.
Một vấn đề khác là suy luận về bằng chứng, nguyên
nhân và hậu quả. Ngay cả khi các dữ kiện được thu thập trong hai nhóm có
đặc tính giống nhau hay tương đương nhau, nhà nghiên cứu vẫn chưa có
thể phát biểu về mối liên hệ giữa nguyên nhân và hậu quả (cause and
effect).
Thực ra, nhà nghiên cứu chỉ có thể phát biểu rằng dữ
kiện [mà họ thu thập được] nhất quán (consistent) với giả thuyết. Nhưng
kết quả của họ cũng có thể nhất quán với các giả thuyết khác nữa. Chẳng
hạn như con số 50% trẻ em tử vong do đuối nước cũng có thể nhất quán với
giả thuyết thuyền bè thiếu an toàn, và nếu không có dữ liệu về an toàn
rất khó nói cái nào là nguyên nhân và cái nào là hệ quả.
Cần nhấn mạnh rằng những con số thống kê không chứng
minh bất cứ một điều gì cả. Khoa học thống kê là một môn học bị lạm dụng
quá nhiều nên môn học này có khi bị mang tiếng xấu, nhất là người ta
hay gắn liền thống kê với câu nói của Benjamin Disrael. Tức là, người ta
tin rằng thống kê có thể dùng để chứng minh bất cứ điều gì, kể cả nói
láo.
Nhưng đó là một cách ngụy biện, chứ trong khoa học
thì thống kê phải được dùng một cách thận trọng. Dù những con số thống
kê có thể được trình bày và diễn dịch nhiều cách khác nhau, chúng không
thể chứng minh bất cứ một điều gì cả. Điều mà thống kê có thể “chứng
minh” được là bác bỏ những gì không chắc chắn, không có thực.
Nhà văn H. G. Wells từng nói rằng trong một xã hội
hiện đại công dân cần thành thạo ba kỹ năng: đọc, viết, và thống kê.
Giới báo chí, hơn ai hết, cần phải trang bị những kỹ năng về diễn giải
và suy luận thống kê để tránh những hiểu lầm đáng tiếc có thể xảy ra
trong tương lai.
SOURCE: THỜI BÁO KINH TẾ SÀI GÒN
Trích dẫn từ: http://www.thesaigontimes.vn/Home/diendan/ykien/33227/
0 comments:
Post a Comment