喝下午茶的女士(統計改變了世界一書摘要)

00760 · 發表於 2008-10-1 17:00:12

做老師的要懂得讓壓力變成助力，而不是壓力變成阻力。
受教了,只覺得您的學生遇到個好老師

只希望
做老闆的要懂得讓壓力變成助力，而不是壓力變成阻力。

我的老闆現在同時也在大學當副教授也有帶研究生(師大)
真希望她也這麼想
可惜..........

我猜我老闆會說
以後你繳費來上班..........你就可以這麼希望......
但我不保證我做得到
因為我沒有PIGHEAD老師這麼優秀
老師和老闆是兩回事
你白痴加腦殘在那邊比來比去的
快回去做事!!!
SAMPLE找到了沒??
PIONEER在哪呀??

我慘了

pighead · 發表於 2008-10-1 19:12:03

我沒有比別人優秀或善良，你的老闆應該是位女性，一般而言，
女性在學術研究領域上的自我要求都比較高，因為環境對她們相
對較為不利，不過這幾年有漸漸改變，我也看過許多位學術研究
領域的女性老闆或老師對下屬或學生相當嚴格(比例較男性多些)
，也有些仍是很好(比例較男性稍微少些)，我的姊姊也是教授，
還是研究所所長，得過一些國家級的獎項，她早期就是拼命三娘
型的，但是這幾年她也逐漸改變，因為生活哲學變了。
龜兔賽跑其實是我們設立的命題，為什麼龜兔一定要比賽跑？賽
跑對兔子有利，為甚麼不是比游泳(對龜有利)，又為什麼龜兔一
定要比賽，而不能夠自己做自己擅長的事而能夠合作完成更大的
事呢？
人生還有許多自己要完成的事情，否則到了人生終點時要後悔的
是我自己，而不是那些指著我該做這個該做那個的人。
建議大家去看一本暢銷書---最後的演講(The Last Lecture)蘭迪鮑許
(Randy Pausch)去年(2007)八月被醫生宣布只剩下3~6個月的生命
，他在九月在卡內基美隆大學的演講感動了非常多人(在YouTube
上可以找得到)，今年初出了這本書，翻譯成中文在台灣上市是今
年的七月，我立刻買了一本，現在仍在我的書桌上，因為看了好幾
次，每次都很感動，對我是很大的激勵，但是今年七月也是蘭迪鮑
許過世的時候，他人雖死了，卻留下重要的信息給許許多多的人，
也同樣透過這些影片、書、朋友、陌生人將他自己留給他的太太與
三個孩子(六歲、三歲、兩歲)。

pighead · 發表於 2008-10-2 08:38:09

統計革命之前，科學所處理的如果不是所做的量測，就是產生這些量測的物理事件；
但隨著統計革命的到來，科學的主體變成了支配量測分布的參數。
在早期的決定論進路下，大家都相信，愈精確的量測，愈能定義與這個量測有關的物
理真相；但在統計的進路下，分布參數不一定非要有相對應的物理實驗，而且不管你
用的度量系統多麼精確，參數的估計值還是會有誤差。
1963年混沌理論學家勞倫茲(Edward Lorenz)發表了一場後來經常被引用的演說，題目
為「巴西一隻蝴蝶翅膀的拍動，會是美國德州龍捲風的成因嗎？」勞倫茲的重點是混
沌的數學函數對初始條件非常敏感，初始條件的些微改變，經過多次的迭代之後，會
造成迥然不同的結果。在勞倫茲演說的哲學含意是決定論的假設，即假設每個初始條
件在理論上都是最後結果的起因。
但是，有科學能證明真的有這種因果關係存在，也就是沒有適當的數學模型可用來說
明這一類的效應，這就只是一種信念的陳述而已；然而統計模型卻有以參數來定義科
學問題的數學模型，但是這也依據我們對真實世界的特質所做的信念陳述。
混沌理論的擁護者說詞中，有一個嚴重的弱點，他們並未量測出根據數據作的圖形，
與產生自特定方程組的圖形，兩者的適合度(goodness of fit)如何；相反地，他們通常只
會要求讀者看看兩種圖形有多相像，然後根據這結果來證明他們提出的生成方程組是
對的。這種肉眼檢驗的分析法是不可靠的，因為依肉眼判斷非常類似或很相像的兩個
圖形，若以這個目的發展出來的統計工具仔細檢驗時，結果往往大不相同。
卡爾．皮爾生很年輕的時候就知道這個問題的重要性，因此他其中一項重要的成就，
就是創造出第一個「適合度檢定」。藉著觀測值與預測值的兩相比較，皮爾生創造出
一種可檢定適合度的統計量，稱為「c2適合度檢定」(c2中文為卡方)。
在費雪的想法裡既然這是個統計量，它就有機率分布，而皮爾生已經證明，不管使用
的數據是何類型，卡方適合度檢定都有相同的分布，也就是說，他能夠列出這項統計
量的機率分布表，並把同一組表用於每一個檢定。卡方適合度檢定只有一個參數，就
是費雪所稱的自由度，在他1922年皇家統計學會期刊的第一篇論文裡，費雪首度批評
皮爾生的這個研究結果，指出他在比較母體比例與樣本比例的例子中把其中一個東西
弄錯了。
但是皮爾生的這項偉大成就，並不因為他在理論上有個小錯誤就黯然失色。皮爾生的
適合度檢定，是近代統計分析當中一個主要部份的先驅，這個主要部份就是所謂的「
假設檢定」(hypothesis test)或稱「顯著性檢定」(significance test)，它讓分析者能提出兩
種或多種互相競爭的數學模型，來模擬實際情況，再利用數據來棄卻(reject)不合適的
模型。假設檢定的應用非常廣，但是假設檢定的使用其實牽涉到一些很嚴謹的哲學問
題。
假設檢定是一種正式的統計程序，是在「待檢驗的假設為真」的假設下，去計算觀測
到的結果之機率；當觀測結果發生機率很小，我們就說原先的假設不成立。這裡很重
要的一點是，假設檢定是一種否定(棄卻)某個假設的工具。
在前面所舉女士品嚐奶茶的例子裡，待檢驗的假設是：這位女士只是靠猜的。假設檢
定的目的不是讓我們肯定(接受)某個假設，就算與該假設有關的機率非常大也不行。
在這個觀念發展的早期，significance(顯著)這個字只用來指「某件事發生的機率小到足
以棄卻」；一組數據如果可以用來棄卻某個分布，這組數據就是具有顯著性的。在十
九世紀末，這個字的意思只是指計算結果帶有某種意義，但進入二十世紀之後，這個
字變得很廣義，泛指某些事情是「非常重要的」。不過在統計分析上，我們還是沿用
以往早期的用法。很不幸地，那些使用統計分析的人，卻常把顯著性檢定的統計量，
拿來指某種在意義上較接近現代語意的東西，這中間其實有很大的差別。
現在常用的顯著性檢定法，大部分都是費雪發展出來的。他把可宣稱某一觀測結果具
有顯著性的機率，稱為「P值」(P-value)。他對自己這個P值的意義與用法很有信心，
在【研究工作者的統計方法】一書中，有很多地方都提到怎麼計算P值。這是一本教導
非數學家如何使用統計方法的書，因此費雪並未在書中解釋這些檢定法的推導過程，
也沒有明確指出到底P值應該等於多少，才算具有顯著性。他只舉出一些計算的例子，
並註明結果是否具有顯著性。
在1929年的【心靈研究學會年報】上，費雪發表了一篇論文，幾乎就要定出一個能在所
有情況下都具顯著性的P值。費雪在這篇論文裡，先是譴責某些作者不當使用顯著性檢
定，接著又說：
「利用生物學的方法來洞察生物行為時，顯著性檢定這種統計工具相當重要。有時候，
許多偶發事件，是由一些我們無法控制的情況共同造成的，與我們想研究或偵測的原因
無關，而統計顯著性檢定的功能，就是在防止我們被這類偶然發生的事件欺瞞。一項觀
測結果若在沒有我們想找尋的原因存在時很少發生，我們就可以判斷這項觀測具顯著性
，但這種偶然發生的機率要小到什麼程度，我們才認為這結果具有顯著性呢？很多人會
認為最多是二十分之一(5%)，這樣的顯著水準對實際進行調查的人來說，雖是任意選定
的，但很方便，不過它並不意謂著他允許自己每二十次就被騙一次。顯著性檢定只是告
訴他，某些無法得到顯著結果的實驗，應該要忽略；當他知道如何設計一個可得到顯著
結果的實驗時，就可以宣稱某個現象能否經由實驗加以驗證。當然，有些有顯著結果而
他無法重複產生的現象，只能留待以後有機會再進行研究，而無法做什麼結論。」
對費雪而言，顯著性檢定只有被放在一系列實驗的脈絡之下才有意義，而且這些實驗的
目標必須是在解釋特定處理的結果。
閱讀過費雪的應用論文之後，我們會被他誘導去相信，他所使用的顯著性檢定只會得到
下列三種可能的結論：第一，如果P值很小(通常小於0.01)，他可以聲稱看到某種結果；
其次，若P值很大(通常大於0.20)，他可以說如果真的有結果，該結果也會很不明顯，連
此種規模的實驗都無法顯示出這個結果；第三，如果P值介於前兩者之間，他可以討論下
一個實驗應該怎麼設計，以便得到比較好的結果。除此以外，費雪從來沒有直接告訴科
學家應該如何解釋P值。其實費雪也曾堅持過錯誤的結果，他從數據中推論無人能證明吸
菸有害健康，這是他的一大錯誤。先把故事轉到1928年，看看35歲的波蘭數學家－尼曼
(Jerzy Neyman, 1894~1981)(請見下左圖)如何與艾根．皮爾生(Egon S. Pearson, 1895~1980)
(請見下右圖)合作解開假設檢定的面紗。

pighead · 發表於 2008-10-2 08:42:37

尼曼因第一次世界大戰爆發，被迫跑去俄國偏遠的卡爾可夫大學就學，該校當時只有
一些十九世紀的數學教育內容，而二十世紀的數學知識則是尼曼靠自修而得的。
在剛投身教職的時候，尼曼好不容易才得到華沙大學的一個職位。當時的波蘭剛獨立
建國，百廢待舉，無法資助學術研究。1928年他花了一個暑假到倫敦的生物統計實驗
室研究，認識了艾根及他的一家人，艾根雖是卡爾．皮爾生的獨生子，個性與父親卻
大不相同。艾根與尼曼的友誼深厚，從兩人在1928~1933年的往返書信裡，就可稍見端
倪。這些信件讓我們清楚看到，兩顆富有獨創精神的心靈如何一面各自提出想法或批
評對方想法，一面去設法解決難題，這讓數學研究看來很像一種通力合作的創新冒險。
艾根問尼曼的第一個問題是什麼呢？請你回想一下老皮爾生提出的卡方適合度檢定，
他發展出這種統計檢定法，是為了檢驗觀察數據是否符合某種理論分布。但事實上，
並沒有所謂的「唯一的」卡方適合度檢定。對一組已知數據，統計分析師可以應用的
檢定法有無限多種，而在這麼多可用的方法之中，並沒有什麼準則可判定哪個是「最
好的」；每次要檢定的時候，分析師其實是任意選擇一個方法。所以，艾根問了尼曼
下面這個問題：
「如果我用卡方適合度檢定，來檢驗一組數據是否為常態分布，而且假設我得不到具
顯著性的P值，那麼我怎麼知道這組數據真的是常態分布？也就是說，我怎麼知道有沒
有另外一種卡方檢定或還沒有被發現的適合度檢定，不會產生具顯著性的P值，讓我否
定這組數據符合常態分布？」
艾根的這個問題雖然只是合作的開始，其實也打開了一扇通往更廣闊領域的門。在顯
著性檢定裡若得到沒有顯著性的結果，代表什麼意義？如果我們無法否定一個假設，
我們能做結論說這個假設為真嗎？
費雪已經間接地點出這個問題，他說若得到很大的P值(代表找不出顯著性)，他可能會
認定這就表示我們無法對該組數據作充分的判斷。所以對費雪來說，「若找不到顯著
性，就代表待檢驗的假設為真」的這種假定，是絕對不可能的。以下這段是引用他的
說法：
「只因為某項假設未與已知的事實互相矛盾，就相信這能證明該假設為真，上述這種
邏輯上的誤解本身，不管是在統計上或是其他的科學推論上，都沒有理由存在……只
要數據與假設矛盾，而且是在正確使用顯著性檢定的情況下，這種檢定就能棄卻或否
定這些假設，但永遠不可能證實這些假設一定為真……要是大家能理解這些，對顯著
性檢定的認識就能大大提升。」
卡爾．皮爾生常用卡方適合度檢定來「證明」某些數據符合特定的分布，在費雪引入更
精確的數理統計方法之後，皮爾生的方法就不再為人接受了，但問題還是存在。為了知
道該估計哪些參數，以及為了決定這些參數與手邊的科學問題有何關係，還是必須假設
數據符合特定的分布。當時的統計學家通常是利用顯著性檢定，來證明這項假設。
艾根與尼曼藉著書信往來，研究了一些由顯著性檢定浮現出來的悖論。漫不經心的使用
顯著性檢定，有可能會把一個顯然為真的假設棄卻掉；但費雪從未落入上述情況，因為
在他看來，這顯然是誤用顯著性檢定所造成的結果。尼曼就問：有什麼準則可以用來判
定某項顯著性檢定的應用是正確的？在他們兩人的書信往來及互訪之後，假設檢定的基
本觀念就逐漸浮現了。
現在所有基本的統計教科書上，都有簡化過的尼曼—皮爾生假設檢定理論，它的結構很
簡單，因為這些理論已經被編纂、整理過，變得很精確且有說服力。而且假設檢定已被
一些法規管制機關接受，如美國藥物暨食品管理局、環保署、醫學院，甚至法律上都有。
但是尼曼發展出的數學結構被過度簡化，其實是扭曲了他的發現，過度專注於理論推導
過程當中比較有問題的面向。尼曼的主要發現是，除非有兩個或以上的可能假設，否則
顯著性檢定根本就沒有意義；也就是說，你沒有辦法檢驗一組數據是否為常態分布，除
非你認為該組數據也有可能符合一些其他的分布。選擇這些對立假說，也就決定了顯著
性檢定的進行方式。
當對立假設為真，尼曼就把該對立假設被發現的機率，稱為該檢定的檢定力(power)。為
了區別用來計算費雪P值的假設，與其他可能的一個或多個假設，尼曼與艾根把待檢驗的
假設稱為「原始假設」(null hypothesis)，而稱其他可能的假設為「對立假設」(alternative
hypothesis)。在他們的理論陳述裡，計算P值是為了檢定原始假設，但檢定力卻是指P值在
對立假設為真的條件下之作用情形。
尼曼由此得到兩個結論：首先，檢定力可以拿來度量一個檢定方法的好壞，兩種檢定方法
當中較有檢定力的就較好用；第二，對立假設不能太多。分析者不能說，某一組數據是來
自某一分布(原始假設)，或來自任何其他可能的分布，這對立假設涵蓋範圍太大，沒有檢
定方法能處理所有可能的假設。
在1950年代，尼曼發展出有限制假設檢定的想法，這套想法對於對立假設的範圍，定義得
非常狹窄。同時他也證明出，這種檢定方法比那些可處理較多對立假設的檢定方法，更具
有檢定力。
在很多情況下，假設檢定是用來針對原始假設的，而這個原始假設就像我們要攻擊的稻草
人。舉例而言，當我們比較兩種藥的臨床效果時，待檢驗的原始假設是兩種藥的效果一樣
，但如果這項假設成立，研究工作就永遠不必進行了，所以「兩種處理效果相同」的原始
假設，就是我們要攻擊的稻草人，應該要被研究的結果推翻。因此，根據尼曼的想法，研
究的設計必須使最終的數據有最大的檢定力，才有辦法推倒這個稻草人，以顯示兩種藥的
效果有多麼不同。

pighead · 發表於 2008-10-2 21:47:07

但是為了發展出具有內部一致性的假設檢定方法，尼曼必須處理一個被費雪掃到
地毯下的問題。儘管尼曼的純數學解得非常巧妙，假設檢定還是一直受這個問題
困擾。這也是統計方法應用到一般的科學時，常會碰到的問題，此一問題以許多
不同面貌出現，總括而言，就是：在真實生活中，機率代表的意義為何？
統計的數學理論陳述能用來計算機率，而算出來的機率讓我們得以把統計方法應
用在科學問題上。就我們使用到的數學而言，機率的定義很明確，但這種抽象的
觀念要怎麼與實務結合呢？當科學家想要決定什麼為真、什麼不為真時，他該如
何解釋由統計分析得到的機率陳述呢？我們來看看是何特定情況，迫使尼曼找出
他的答案。
費雪利用顯著性檢定，產生了一個他稱為P的數值，這是經計算而得的機率，是在
原始假設為真的前提下，與觀測數據有關的機率。假定我們要試驗一個新藥，這
藥可以在婦女做過乳房切除手術後，防止乳癌的復發。我們把這藥的效果與安慰
劑比較，此時的原始假設(那個稻草人)就是：新藥沒比安慰劑好。現在假定五年之
後，服用安慰劑的婦女有一半乳癌復發，但服用新藥的完全沒有人復發，這樣能
證明新藥「有效」嗎？答案當然得視這復發的百分之五十究竟是有多少人。
如果這項研究裡，兩組各有四名病人，也就是總共八名病人，而其中兩人在五年
後復發。假定我們任選一個八人團體，把其中兩人貼上標籤，接著把八人隨機分
成兩組，每組四人，那貼標籤的兩人分在同一組的機率大約是0.30。
因此如果每組只有四名婦人，「所有復發的婦女都落在安慰劑組」的情況，是沒
有顯著性的。不過，如果每一組都有500名婦女，乳癌復發的所有250名婦女都落
在安慰劑組，是非常不可能的，除非新藥真的有效。如果新藥沒比安慰劑有效，
這250名復發的婦女都在同一組的機率(也就是P值)，計算出來的值會小於0.0001。
P值是一個機率值，而且這就它的計算方式，那麼既然我們利用P值來證明某項假
設不為真，而P值是在該假設之下計算出來的，那它的實際意義又是什麼？答案是
，P值是在極可能不正確的條件下，與觀測結果有關的理論機率值。P值與現實情
況沒什麼關係，而是一種似真間接測量值；它不是我們誤以為新藥有效的機率，
也不是出任何一種錯誤的機率，更不是病人對安慰劑與新藥各有什麼反應的機率。
但是，為了決定哪一種檢定法比別的方法好，尼曼必須想辦法把假設檢定放進某
個架構裡，好讓他計算相關的機率—他必須將假設檢定的P值與實務連接在一起。
1872年英國邏輯學家范恩(John Venn, 1834~1923)提出一個數學機率表述，使得機
率在現實生活上有它的意義(雖然不是很完整，也不是很好的應用的表述，但是至
少還可以實用)。他把一個重要的機率定理，轉了一個方向，這定理就是大數法則
(law of large numbers)，它是在說：若某個事件有既定的機率(就像擲一個骰子，得
到六點的事件之機率為1/6)，而我們一而再、再而三地進行相同的試驗時，該事件
發生的次數比例，就會愈來愈接近這個值。范恩聲稱，特定事件的機率，是該事
件長期發生次數的比例。
在范恩提出的想法中，並不是機率的數學理論推導出大數法則，反而是大數法則
推導出機率，這就是以次數為基礎來定義機率(frequentist definition of probability)。
但是在1921年，凱因斯(John M. Keynes, 1883~1946) 推翻這種定義方式，認為它不
是一種有用或有意義的解釋，並指出這種定義有許多根本的矛盾，因而無法應用
於大多數的情況。
在正式使用數學方法來架構假設檢定時，尼曼重回范恩提出的次數定義。尼曼利
用這個定義，來證明自己對假設檢定中的P值的解釋是合理的。在尼曼—皮爾生的
理論裡，科學家先設定一個定值，如0.05，之後，當顯著性檢定的P值小於或等於
0.05時，就棄卻原始假設；長期來看，他們就有剛好5%的機會，棄卻一個正確的
原始假設。
這就是當前流傳的假設檢定法，大家強調的是尼曼所採行的次數理論方法。但是
，我們太容易把尼曼—皮爾生假設檢定理論，視為是在以次數的理論方法探討機
率，因而也容易忽略尼曼觀點當中更重要的內涵：為了檢定原始假設，必須有一
組定義明確的對立假設。
連費雪也誤解了尼曼的深層內涵，他只注意到顯著水準的定義，忽略了其他的重
要觀念，比如檢定力，以及對於對立假設的必要定義。
儘管尼曼的基本觀念受到這些扭曲，假設檢定還是成為科學研究中應用得最多的
統計工具。現在大部分的科學期刊都要求論文的作者，把假設檢定納入他的數據
分析裡，甚至連科學期刊外的領域也受到影響，如藥物管理機構、法庭等，假設
檢定已經滲入所有統計科學的支派。
雖然尼曼—皮爾生假設檢定理論擠身統計學的巔峰地位，可是一路上遭受許多的
挑戰，尤其是費雪從一開始就加以攻擊，且在他有生之年持續攻擊這個理論，1960
年代晚期的考克斯(David Cox)發表一篇清晰的分析，指出假設檢定在科學上的實
際用途，同時也證明了尼曼的次數解釋不符合實際狀況，1980年代戴明(William E.
Deming)攻擊假設檢定的觀念，認為整個想法是荒謬的。
另有些人則將尼曼—皮爾生理論的觀念予以發展，二次大戰時，沃德(Abraham
Wald)把尼曼取自范恩的次數定義加以擴充，發展成統計決策理論的領域。萊曼
(Eric Lehmann)則訂出許多用來判斷良好檢定法的準則，於1959年寫了一本有關
假設檢定的重要教科書，這是對尼曼—皮爾生假設檢定描述得最完整的一份資
料。

pighead · 發表於 2008-10-2 21:50:01

至於那位試喝下午茶的女士最後如何了？費雪並沒有描述那個夏日午後在劍橋所做
的實驗結果。但是，當天下午也在場的史密斯教授(Hugh Fairfield Smith)告訴我們，
她分辨出每一杯茶，完全答對，厲害吧！她所依靠的不是機率，而是累積的經驗與
仔細的判斷。

========================================================================

摘要結束！

李仔 · 發表於 2008-10-6 10:43:44

老師我看了太感動了~~~~

pighead · 發表於 2008-10-6 12:07:52

我剛剛才送出這本書給一位畢業的研究生，鼓勵她要過一個屬於她自己的人生，
一個可以實現自己夢想，並且幫助別人實現夢想的人生，最重要的是從年輕就開
始，到她人生終點前就不會有後悔。
我也要學生開始列出自己一生想要完成的夢想，這叫做The Bucket List，前一陣
子有部片子叫做一路玩到掛，可以去百視達之類的店租來看，正好配合這本書
一起看，對我們的啟發會很多。