首頁 > 科技

簡單易懂!十分鐘帶你瞭解:統計學到底是幹什麼的

2021-06-08 09:37:40

CDA資料分析師 出品

編譯:Mika

【導讀】

統計學在我們的日常生活中無處不在,它有助於我們更好地瞭解世界,並做出更好的決策。

在今天的內容裡,我們將帶你用十分鐘瞭解:統計學到底是關於什麼的一門學問。

歡迎來到這個充滿未知、謬論和假設的世界,統計學的世界裡不僅有博弈、思想實驗還有擲硬幣實驗…

等你看完今天的內容,你就知道統計學有何用?該如何用?

統計學在日常生活中無處不在

在日常生活我們常常會遇到有關統計的問題時,你知道該如何思考。

統計學在日常生活中有很大的用處:

學生可以用它估計自己是否能被名校錄取;商人用它來制定銷售計劃;Netflix通過資料預測觀眾接下來想看的節目;你在看天氣預報的時候,可以用它來決定明天穿什麼,是連衣裙還是牛仔褲;政府能用來判斷是否要加大對學前兒童教育的投入;是否要加強精神衛生服務的建設…統計就是理解,並運用資料。

下面就讓我們開始回答「什麼是統計學」這個問題。

英式下午茶中的統計學靈感

關於英式下午茶有一段軼事。

在20世紀20年代的劍橋,一位女士認為:牛奶是先加還是後加,這會影響茶的口感。

當時的天才們立馬開始思考,該如何驗證她的猜想。

於是,他們將8杯茶的順序打亂。想看看她能否品嚐出每一杯是先加奶,還是先加茶。

但就算她嚐出不同了,那又能說明什麼呢?

因為她答對和答錯的可能性相同。而且即使她確實品出區別了,還有可能是她將錯就錯得到的。

如何判斷她是否是品茶專家呢?運氣好和舌頭靈的界限在哪兒?

眾人一籌莫展時,輪到Ronald A. Fisher出場了。

Fisher的一生為統計學做出了大量奠基工作。

這些知識能幫我們在猶豫時作出決定,不只是品茶實驗。Fisher創造性地提出實驗設計法 ,使統計學成為一門嚴謹的科學。

儘管Fisher本人沒有給出茶實驗的結果。但這個故事的結局就是,那位女士正確的區分出了所有的茶。

統計學中的兩個關鍵概念

現在,我們要引出相關但不同的兩個統計學概念了。

我們說統計學的領域就是收集和分析資料的實踐活動。我們認為統計學就是資料的總和。

為了回答「什麼是統計學」,我們應該先問「統計學有什麼用」。

用統計學分析:人們為什麼喜歡吃快餐

假設你為了期末考試熬夜複習。早上醒來,發現你倒在書桌上就睡著了,臉上還沾著枕漢堡的殘渣。

你會想,我為什麼要吃這種東西?快餐控制了我的生活嗎?然後你說服了自己,我只是圖方便罷了。

但你也很糾結,你在想當中深層次的原因。

接著你上網搜「快餐消費」 ,找到一份相關的調查問卷。

你做的第一件事可能就是問自己感興趣的問題。例如,你可能會問:

為什麼有人會吃快餐?週末吃快餐的人會比平時多嗎?吃快餐會讓人煩惱嗎?

......

這些問題都挺不錯的。

但我們有一個更重要的問題要問:統計學能解決這些問題嗎

我之前說過統計學只是工具,不能所有髒活累活都給它幹。

為了回答「為什麼有人會吃快餐」這個問題,你可以讓他做一份問卷。但你沒法保證他們是如實作答的。

可能是因為自己累得不想做飯,才沉迷快餐的;或者他們也不知道為什麼要吃快餐。

有了調查的結果後,你可以得出最可能的結論是:人們吃快餐只是圖省事,或者人們平均一週吃5次快餐。

但你並沒有研究人們為什麼會吃這麼多。

你求出的叫「代理變數」 ,與所求有關,但並非其自身。

為了回答「為什麼週末吃快餐更多」或者「一週兩次也讓我壓力山大」 ,我們就不僅要知道吃快餐的人數,這個問卷裡有了,而且還要知道是在一週的哪幾天吃的。

而且我們給「壓力」具體化。

藉助統計學,很容易回答 「為什麼人們在週末吃的多」。

但是 「吃快餐是否與壓力大有關」 卻無法直接回答。

什麼算壓力?我們怎麼量化?壓力大是吃快餐的原因呢?還是結果呢?人們為何會吃快餐?......類似這樣有趣的問題無法直接用統計學來解釋。而「吃快餐的人每週工作時長是否超過80小時」 這種問題是可以回答的。

回答上述問題的工具可分為兩種:描述統計與推理統計。

描述統計描述了資料的基本情況。描述統計一般是研究資料的中段在哪兒。

統計學家稱之為,集中趨勢的度量,以及資料分佈特徵的度量。它們根據大量不直觀的資料,通過分析和總結,希望得到有價值的資訊。

用描述統計思考:怎麼合理的提漲薪

假設你在當地的華夫餅生產工廠幹了兩年。終於有一天,你研究出了金棕色的,十分美味的華夫餅。

現在,你想漲漲工資。這是你應得的,沒人能做出這麼好吃的華夫餅。

但你打算漲多少?

加1000元嗎?

還是5000元呢?

你知道自己有點本事了,但不知道其他華夫餅工人的工資。

你在網上搜索了一番,發現一家專業的華夫餅論壇,當中有一位叫「華夫探」的使用者貼出了華夫餅工人的工資表。

瀏覽了一串數字後,你知道了別的冷凍華夫餅公司的女工是否比你賺得多。還能看出你比剛來的新人多賺多少。

但你還是看不出公司裡或者行業中價格的整體情況。

因為這裡有幾千個華夫餅工人的資料。你看見的是一串離散的點,而不是圖樣。你還是不知道應該向老闆開價多少。

這裡就用到描述統計學了。

可以算出自己公司裡工人的平均工資,以及每人相對於平均工資的分佈。

你可以看出CEO的工資與剛進公司的新人工資的差距,是大還是小?你的工資與它們兩者相比如何。你可以算出行業中你所在職位的工資平均值,觀察這個範圍的兩端。

有了這些資料,你再向老闆開價的時候就有底氣了。

儘管描述統計學很有用,但是隻能提供基本資訊。

推理統計學能給出推理結論,推理統計學能對手中的資料進行延伸推論。

用推理統計思考:推算有多少顆太妃糖

假設你有一個裝滿鹽水太妃糖的糖果桶,有粉色的、白色的、黃色的。

如果你想知道每種顏色有多少塊,你可以慢慢數:一塊、兩塊、三塊...

這會給你描述統計學的資料,但是誰有那閒工夫。或者你抓一大把糖,就數這些就行了。

這就用到推理統計學了。

如果桶裡的糖混合均勻的話,你一把抓的也足夠多。你可以藉助推理統計的原理,用「樣本」估計總體。

我們用推理統計來完成更復雜的工作,可以讓我們驗證一個想法或者假設。

例如,回答「在美國,30歲以下的人吃的快餐更多嗎」這種問題。我們不需要讓所有人都來回答這個問題。

假設有人說他們的最新益腦維他命產品能提升智商,你會跟風搶購嗎?

如果他們告訴你:A組的20人吃了一個月後,平均智商提升了2個點 。而B組的沒有吃的20個人,平均智商只提升了1個點。

現在呢?開始動心了吧?

推理統計讓你可以判斷出,兩個樣本的智商是否發生了變化。

當然,作為個體你可以拒絕相信。也不要因為標杆的不同而大驚小怪。

不同問題標準也不同,「為什麼我的貓更喜歡某一種貓糧」 或 「這種藥能治好肺癌嗎」。

說服你買新款治癌藥,比說服你換一種貓糧要難得多。這也是理所當然的。

經過推理統計的測試仍存在一定程度的不確定性。

畢竟答案要麼是「是」或者「否」。

你的工作就是排除不確定因素,獲取有價值資訊。

統計學到底該怎麼用

如果統計學是超級英雄,那麼他的絕招就是——拿不準。而他的口號就是「我會犯錯,但不能不做」。

統計學是工具,它幫助我們理解世界中的龐大資訊。像眼睛和耳朵能濾除外界無用的刺激,給我們呈現出最好的世界一樣。

統計學為我們抽取世界中有益的資料,描述統計學使我們能讀懂資料。

雖然失去了個體資料資訊,推理統計學讓我們處理存在不確定性的資料。

但它不是萬能的,它們是來幫忙的,不是來打工的。它們幫我們看清了不確定性,但沒有排除不確定性。

再拿工具來比喻,統計學就像電鋸,不理解原理的話,不僅無用還可能有害。我們必須要知道什麼能做,什麼不能做。

同時我們還要知道,統計學不好會讓我們吃虧上當。

而電鋸用不好會導致美國全年的3.6萬起傷人事件,其中81%是撕裂傷。你知道其實沒什麼人死於電鋸嗎?也會有,但非常少有。95%的傷者是男性,這不能說明男人用不好電鋸。

統計學還能幫我們安排旅遊計劃;它能提高足球比賽的勝率;它能幫我們算出大學裡的花銷

…...

總之,統計學有所為,有所不為。我們學習統計學就要理解這當中的差異。


IT145.com E-mail:sddin#qq.com