讀古今文學網 > 學會提問(原書第10版) > 不知來歷的和帶有偏見的數據 >

不知來歷的和帶有偏見的數據

最近一個新聞標題:40%的大學生飽受抑鬱症的折磨!

在你情緒低落的時候你該不該過分擔心呢?你又怎麼知道自己可以相信這樣的統計數據?

任何統計數據都要求將發生在某地的某些事件界定並準確識別出來,這常常是一項非常艱巨的任務。因此,要找出欺騙性的數據,第一個策略就是盡量找到足夠多的關於這些數據是如何採集的信息。我們能不能準確地知道美國到底有多少人在報稅單上做過手腳,多少人有過婚前性行為,多少人開車打手機,或多少人使用違禁藥品?如果你想像一下做這些統計的細枝末節,我們懷疑你的答案會是「不太可能」。為什麼?因為要為特定的目標而得到精確的數據,你常常會遇到各種各樣的攔路虎和絆腳石,其中包括關鍵詞語的模稜兩可,識別相關人員或事件的種種困難,人們不願意提供真實信息,人們不能報告各種事件,還有觀察事件的種種身體上的障礙等。因此,統計數據往往只能是基於事實做出的一些估計。這些估計有時候很有用,但它們也可能有欺騙性。記住總要問一句,「作者是怎樣得出這個估計的?」你得到的細節越多越好。

不知來歷的統計數據最常見的一個用處就是用大量的數字給別人加深印象或讓別人肅然起敬,這些呈現出來的數字的精確性常常會讓人懷疑。比如,大量的數字可能被用來提醒公眾注意日見增長的身體失調或精神失常的發生率,例如癌症、飲食異常或幼年孤僻症等。如果我們能知道這些數據確定的過程是如何仔細,我們肯定會更加深受這些數據的感染。比如一直以來人們都在努力統計大學生抑鬱症發病率的準確數據,但是不知來歷的數據問題已經成為影響統計的一個主要因素,研究報上來的發病率存在10%~40%的跨度。所以,本章一開始提到的那份研究如果讓你覺得過度驚慌的話,你未免顯得有些杯弓蛇影。記住:在對這樣的數據做出反應之前,我們先要問一聲它們是怎麼得來的。