12
返回列表 發新帖
樓主: pighead

喝下午茶的女士(統計改變了世界一書摘要)

[複製鏈接]

升級   32%

發表於 2008-10-1 17:00:12 | 顯示全部樓層

受教了,只覺得您的學生遇到個好老師

做老師的要懂得讓壓力變成助力,而不是壓力變成阻力。
受教了,只覺得您的學生遇到個好老師

只希望
做老闆的要懂得讓壓力變成助力,而不是壓力變成阻力。

我的老闆現在同時也在大學當副教授也有帶研究生(師大)
真希望她也這麼想
可惜..........

我猜我老闆會說
以後你繳費來上班..........你就可以這麼希望......
但我不保證我做得到
因為我沒有PIGHEAD老師這麼優秀
老師和老闆是兩回事
你白痴加腦殘在那邊比來比去的
快回去做事!!!
SAMPLE找到了沒??
PIONEER在哪呀??

我慘了
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-1 19:12:03 | 顯示全部樓層

每個人的生活哲學不同

我沒有比別人優秀或善良,你的老闆應該是位女性,一般而言,
女性在學術研究領域上的自我要求都比較高,因為環境對她們相
對較為不利,不過這幾年有漸漸改變,我也看過許多位學術研究
領域的女性老闆或老師對下屬或學生相當嚴格(比例較男性多些)
,也有些仍是很好(比例較男性稍微少些),我的姊姊也是教授,
還是研究所所長,得過一些國家級的獎項,她早期就是拼命三娘
型的,但是這幾年她也逐漸改變,因為生活哲學變了。
龜兔賽跑其實是我們設立的命題,為什麼龜兔一定要比賽跑?賽
跑對兔子有利,為甚麼不是比游泳(對龜有利),又為什麼龜兔一
定要比賽,而不能夠自己做自己擅長的事而能夠合作完成更大的
事呢?
人生還有許多自己要完成的事情,否則到了人生終點時要後悔的
是我自己,而不是那些指著我該做這個該做那個的人。
建議大家去看一本暢銷書---最後的演講(The Last Lecture)蘭迪鮑許
(Randy Pausch)去年(2007)八月被醫生宣布只剩下3~6個月的生命
,他在九月在卡內基美隆大學的演講感動了非常多人(在YouTube
上可以找得到),今年初出了這本書,翻譯成中文在台灣上市是今
年的七月,我立刻買了一本,現在仍在我的書桌上,因為看了好幾
次,每次都很感動,對我是很大的激勵,但是今年七月也是蘭迪鮑
許過世的時候,他人雖死了,卻留下重要的信息給許許多多的人,
也同樣透過這些影片、書、朋友、陌生人將他自己留給他的太太與
三個孩子(六歲、三歲、兩歲)。
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-2 08:38:09 | 顯示全部樓層

P值背後的哲理

統計革命之前,科學所處理的如果不是所做的量測,就是產生這些量測的物理事件;
但隨著統計革命的到來,科學的主體變成了支配量測分布的參數。
在早期的決定論進路下,大家都相信,愈精確的量測,愈能定義與這個量測有關的物
理真相;但在統計的進路下,分布參數不一定非要有相對應的物理實驗,而且不管你
用的度量系統多麼精確,參數的估計值還是會有誤差。
1963年混沌理論學家勞倫茲(Edward Lorenz)發表了一場後來經常被引用的演說,題目
「巴西一隻蝴蝶翅膀的拍動,會是美國德州龍捲風的成因嗎?」勞倫茲的重點是混
沌的數學函數對初始條件非常敏感,初始條件的些微改變,經過多次的迭代之後,會
造成迥然不同的結果。在勞倫茲演說的哲學含意是決定論的假設,即假設每個初始條
件在理論上都是最後結果的起因。
但是,有科學能證明真的有這種因果關係存在,也就是沒有適當的數學模型可用來說
明這一類的效應,這就只是一種信念的陳述而已;然而統計模型卻有以參數來定義科
學問題的數學模型,但是這也依據我們對真實世界的特質所做的信念陳述。
混沌理論的擁護者說詞中,有一個嚴重的弱點,他們並未量測出根據數據作的圖形,
與產生自特定方程組的圖形,兩者的適合度(goodness of fit)如何;相反地,他們通常只
會要求讀者看看兩種圖形有多相像,然後根據這結果來證明他們提出的生成方程組是
對的。這種肉眼檢驗的分析法是不可靠的,因為依肉眼判斷非常類似或很相像的兩個
圖形,若以這個目的發展出來的統計工具仔細檢驗時,結果往往大不相同。
卡爾.皮爾生很年輕的時候就知道這個問題的重要性,因此他其中一項重要的成就,
就是創造出第一個「適合度檢定」。藉著觀測值與預測值的兩相比較,皮爾生創造出
一種可檢定適合度的統計量,稱為「c2適合度檢定」(c2中文為卡方)
在費雪的想法裡既然這是個統計量,它就有機率分布,而皮爾生已經證明,不管使用
的數據是何類型,卡方適合度檢定都有相同的分布,也就是說,他能夠列出這項統計
量的機率分布表,並把同一組表用於每一個檢定。卡方適合度檢定只有一個參數,就
是費雪所稱的自由度,在他1922年皇家統計學會期刊的第一篇論文裡,費雪首度批評
皮爾生的這個研究結果,指出他在比較母體比例與樣本比例的例子中把其中一個東西
弄錯了。
但是皮爾生的這項偉大成就,並不因為他在理論上有個小錯誤就黯然失色。皮爾生的
適合度檢定,是近代統計分析當中一個主要部份的先驅,這個主要部份就是所謂的「
假設檢定」(hypothesis test)或稱「顯著性檢定」(significance test),它讓分析者能提出兩
種或多種互相競爭的數學模型,來模擬實際情況,再利用數據來棄卻(reject)不合適的
模型。假設檢定的應用非常廣,但是假設檢定的使用其實牽涉到一些很嚴謹的哲學問
題。
假設檢定是一種正式的統計程序,是在「待檢驗的假設為真」的假設下,去計算觀測
到的結果之機率;當觀測結果發生機率很小,我們就說原先的假設不成立。這裡很重
要的一點是,假設檢定是一種否定(棄卻)某個假設的工具。
在前面所舉女士品嚐奶茶的例子裡,待檢驗的假設是:這位女士只是靠猜的。假設檢
定的目的不是讓我們肯定(接受)某個假設,就算與該假設有關的機率非常大也不行。
在這個觀念發展的早期,significance(顯著)這個字只用來指「某件事發生的機率小到足
以棄卻」;一組數據如果可以用來棄卻某個分布,這組數據就是具有顯著性的。在十
九世紀末,這個字的意思只是指計算結果帶有某種意義,但進入二十世紀之後,這個
字變得很廣義,泛指某些事情是「非常重要的」。不過在統計分析上,我們還是沿用
以往早期的用法。很不幸地,那些使用統計分析的人,卻常把顯著性檢定的統計量,
拿來指某種在意義上較接近現代語意的東西,這中間其實有很大的差別。
現在常用的顯著性檢定法,大部分都是費雪發展出來的。他把可宣稱某一觀測結果具
有顯著性的機率,稱為「P值」(P-value)。他對自己這個P值的意義與用法很有信心,
在【研究工作者的統計方法】一書中,有很多地方都提到怎麼計算P值。這是一本教導
非數學家如何使用統計方法的書,因此費雪並未在書中解釋這些檢定法的推導過程,
也沒有明確指出到底P值應該等於多少,才算具有顯著性。他只舉出一些計算的例子,
並註明結果是否具有顯著性。
1929年的【心靈研究學會年報】上,費雪發表了一篇論文,幾乎就要定出一個能在所
有情況下都具顯著性的P值。費雪在這篇論文裡,先是譴責某些作者不當使用顯著性檢
定,接著又說:
「利用生物學的方法來洞察生物行為時,顯著性檢定這種統計工具相當重要。有時候,
許多偶發事件,是由一些我們無法控制的情況共同造成的,與我們想研究或偵測的原
無關,而統計顯著性檢定的功能,就是在防止我們被這類偶然發生的事件欺瞞。一項觀
測結果若在沒有我們想找尋的原因存在時很少發生,我們就可以判斷這項觀測具顯著性
,但這種偶然發生的機率要小到什麼程度,我們才認為這結果具有顯著性呢?很多人
認為最多是二十分之一(5%),這樣的顯著水準對實際進行調查的人來說,雖是任意選定
的,但很方便,不過它並不意謂著他允許自己每二十次就被騙一次。顯著性檢定只是告
訴他,某些無法得到顯著結果的實驗,應該要忽略;當他知道如何設計一個可得到顯著
結果的實驗時,就可以宣稱某個現象能否經由實驗加以驗證。當然,有些有顯著結果而
他無法重複產生的現象,只能留待以後有機會再進行研究,而無法做什麼結論。」
對費雪而言,顯著性檢定只有被放在一系列實驗的脈絡之下才有意義,而且這些實驗的
目標必須是在解釋特定處理的結果。
閱讀過費雪的應用論文之後,我們會被他誘導去相信,他所使用的顯著性檢定只會得到
下列三種可能的結論:第一,如果P值很小(通常小於0.01),他可以聲稱看到某種結果;
其次,若P值很大(通常大於0.20),他可以說如果真的有結果,該結果也會很不明顯,連
此種規模的實驗都無法顯示出這個結果;第三,如果P值介於前兩者之間,他可以討論下
一個實驗應該怎麼設計,以便得到比較好的結果。除此以外,費雪從來沒有直接告訴科
學家應該如何解釋P值。其實費雪也曾堅持過錯誤的結果,他從數據中推論無人能證明吸
菸有害健康,這是他的一大錯誤。先把故事轉到1928年,看看35歲的波蘭數學家-尼曼
(Jerzy Neyman, 1894~1981)(請見下左圖)如何與艾根.皮爾生(Egon S. Pearson, 1895~1980)

(請見下右圖)合作解開假設檢定的面紗。
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-2 08:42:37 | 顯示全部樓層

因著友誼在科學上產生創新

尼曼因第一次世界大戰爆發,被迫跑去俄國偏遠的卡爾可夫大學就學,該校當時只有
一些十九世紀的數學教育內容,而二十世紀的數學知識則是尼曼靠自修而得的。
在剛投身教職的時候,尼曼好不容易才得到華沙大學的一個職位。當時的波蘭剛獨立
建國,百廢待舉,無法資助學術研究。1928年他花了一個暑假到倫敦的生物統計實驗
室研究,認識了艾根及他的一家人,艾根雖是卡爾.皮爾生的獨生子,個性與父親卻
大不相同。艾根與尼曼的友誼深厚,從兩人在1928~1933年的往返書信裡,就可稍見端
倪。這些信件讓我們清楚看到,兩顆富有獨創精神的心靈如何一面各自提出想法或批
評對方想法,一面去設法解決難題,這讓數學研究看來很像一種通力合作的創新冒險。
艾根問尼曼的第一個問題是什麼呢?請你回想一下老皮爾生提出的卡方適合度檢定,
他發展出這種統計檢定法,是為了檢驗觀察數據是否符合某種理論分布。但事實上,
並沒有所謂的「唯一的」卡方適合度檢定。對一組已知數據,統計分析師可以應用的
檢定法有無限多種,而在這麼多可用的方法之中,並沒有什麼準則可判定哪個是「最
好的」;每次要檢定的時候,分析師其實是任意選擇一個方法。所以,艾根問了尼曼
下面這個問題:
「如果我用卡方適合度檢定,來檢驗一組數據是否為常態分布,而且假設我得不到具
顯著性的P值,那麼我怎麼知道這組數據真的是常態分布?也就是說,我怎麼知道有沒
有另外一種卡方檢定或還沒有被發現的適合度檢定,不會產生具顯著性的P值,讓我否
定這組數據符合常態分布?」
艾根的這個問題雖然只是合作的開始,其實也打開了一扇通往更廣闊領域的門。在顯
著性檢定裡若得到沒有顯著性的結果,代表什麼意義?如果我們無法否定一個假設,
我們能做結論說這個假設為真嗎?
費雪已經間接地點出這個問題,他說若得到很大的P(代表找不出顯著性),他可能會
認定這就表示我們無法對該組數據作充分的判斷。所以對費雪來說,「若找不到顯著
性,就代表待檢驗的假設為真」的這種假定,是絕對不可能的。以下這段是引用他的
說法:
「只因為某項假設未與已知的事實互相矛盾,就相信這能證明該假設為真,上述這種
邏輯上的誤解本身,不管是在統計上或是其他的科學推論上,都沒有理由存在……只
要數據與假設矛盾,而且是在正確使用顯著性檢定的情況下,這種檢定就能棄卻或否
定這些假設,但永遠不可能證實這些假設一定為真……要是大家能理解這些,對顯著
性檢定的認識就能大大提升。」
卡爾.皮爾生常用卡方適合度檢定來「證明」某些數據符合特定的分布,在費雪引入更
精確的數理統計方法之後,皮爾生的方法就不再為人接受了,但問題還是存在。為了知
道該估計哪些參數,以及為了決定這些參數與手邊的科學問題有何關係,還是必須假設
數據符合特定的分布。當時的統計學家通常是利用顯著性檢定,來證明這項假設。
艾根與尼曼藉著書信往來,研究了一些由顯著性檢定浮現出來的悖論。漫不經心的使用
顯著性檢定,有可能會把一個顯然為真的假設棄卻掉;但費雪從未落入上述情況,因為
在他看來,這顯然是誤用顯著性檢定所造成的結果。尼曼就問:有什麼準則可以用來判
定某項顯著性檢定的應用是正確的?在他們兩人的書信往來及互訪之後,假設檢定的基
本觀念就逐漸浮現了。
現在所有基本的統計教科書上,都有簡化過的尼曼皮爾生假設檢定理論,它的結構很
簡單,因為這些理論已經被編纂、整理過,變得很精確且有說服力。而且假設檢定已被
一些法規管制機關接受,如美國藥物暨食品管理局、環保署、醫學院,甚至法律上都有。
但是尼曼發展出的數學結構被過度簡化,其實是扭曲了他的發現,過度專注於理論推導
過程當中比較有問題的面向。尼曼的主要發現是,除非有兩個或以上的可能假設,否則
顯著性檢定根本就沒有意義;也就是說,你沒有辦法檢驗一組數據是否為常態分布,除
非你認為該組數據也有可能符合一些其他的分布。選擇這些對立假說,也就決定了顯著
性檢定的進行方式。
當對立假設為真,尼曼就把該對立假設被發現的機率,稱為該檢定的檢定力(power)。為
了區別用來計算費雪P值的假設,與其他可能的一個或多個假設,尼曼與艾根把待檢驗的
假設稱為「原始假設」(null hypothesis),而稱其他可能的假設為「對立假設」(alternative
hypothesis)。在他們的理論陳述裡,計算P值是為了檢定原始假設,但檢定力卻是指P值在
對立假設為真的條件下之作用情形。
尼曼由此得到兩個結論:首先,檢定力可以拿來度量一個檢定方法的好壞,兩種檢定方法
當中較有檢定力的就較好用;第二,對立假設不能太多。分析者不能說,某一組數據是來
自某一分布(原始假設),或來自任何其他可能的分布,這對立假設涵蓋範圍太大,沒有檢
定方法能處理所有可能的假設。
1950年代,尼曼發展出有限制假設檢定的想法,這套想法對於對立假設的範圍,定義得
非常狹窄。同時他也證明出,這種檢定方法比那些可處理較多對立假設的檢定方法,更具
有檢定力。
在很多情況下,假設檢定是用來針對原始假設的,而這個原始假設就像我們要攻擊的稻草
人。舉例而言,當我們比較兩種藥的臨床效果時,待檢驗的原始假設是兩種藥的效果一樣
,但如果這項假設成立,研究工作就永遠不必進行了,所以「兩種處理效果相同」的原始
假設,就是我們要攻擊的稻草人,應該要被研究的結果推翻。因此,根據尼曼的想法,研
究的設計必須使最終的數據有最大的檢定力,才有辦法推倒這個稻草人,以顯示兩種藥的
效果有多麼不同。
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-2 21:47:07 | 顯示全部樓層

應用機率時的模糊地帶

但是為了發展出具有內部一致性的假設檢定方法,尼曼必須處理一個被費雪掃到
地毯下的問題。儘管尼曼的純數學解得非常巧妙,假設檢定還是一直受這個問題
困擾。這也是統計方法應用到一般的科學時,常會碰到的問題,此一問題以許多
不同面貌出現,總括而言,就是:在真實生活中,機率代表的意義為何?
統計的數學理論陳述能用來計算機率,而算出來的機率讓我們得以把統計方法應
用在科學問題上。就我們使用到的數學而言,機率的定義很明確,但這種抽象的
觀念要怎麼與實務結合呢?當科學家想要決定什麼為真、什麼不為真時,他該如
何解釋由統計分析得到的機率陳述呢?我們來看看是何特定情況,迫使尼曼找出
他的答案。
費雪利用顯著性檢定,產生了一個他稱為P的數值,這是經計算而得的機率,是在
原始假設為真的前提下,與觀測數據有關的機率。假定我們要試驗一個新藥,這
藥可以在婦女做過乳房切除手術後,防止乳癌的復發。我們把這藥的效果與安慰
劑比較,此時的原始假設(那個稻草人)就是:新藥沒比安慰劑好。現在假定五年之
後,服用安慰劑的婦女有一半乳癌復發,但服用新藥的完全沒有人復發,這樣能
證明新藥「有效」嗎?答案當然得視這復發的百分之五十究竟是有多少人。
如果這項研究裡,兩組各有四名病人,也就是總共八名病人,而其中兩人在五年
後復發。假定我們任選一個八人團體,把其中兩人貼上標籤,接著把八人隨機分
成兩組,每組四人,那貼標籤的兩人分在同一組的機率大約是0.30
因此如果每組只有四名婦人,「所有復發的婦女都落在安慰劑組」的情況,是沒
有顯著性的。不過,如果每一組都有500名婦女,乳癌復發的所有250名婦女都落
在安慰劑組,是非常不可能的,除非新藥真的有效。如果新藥沒比安慰劑有效,
250名復發的婦女都在同一組的機率(也就是P),計算出來的值會小於0.0001
P值是一個機率值,而且這就它的計算方式,那麼既然我們利用P值來證明某項假
設不為真,而P值是在該假設之下計算出來的,那它的實際意義又是什麼?答案是
P值是在極可能不正確的條件下,與觀測結果有關的理論機率值。P值與現實情
況沒什麼關係,而是一種似真間接測量值;它不是我們誤以為新藥有效的機率,
也不是出任何一種錯誤的機率,更不是病人對安慰劑與新藥各有什麼反應的機率。
但是,為了決定哪一種檢定法比別的方法好,尼曼必須想辦法把假設檢定放進某
個架構裡,好讓他計算相關的機率—他必須將假設檢定的P值與實務連接在一起。
1872年英國邏輯學家范恩(John Venn, 1834~1923)提出一個數學機率表述,使得機
率在現實生活上有它的意義(雖然不是很完整,也不是很好的應用的表述,但是至
少還可以實用)。他把一個重要的機率定理,轉了一個方向,這定理就是大數法則
(law of large numbers),它是在說:若某個事件有既定的機率(就像擲一個骰子,得

到六點的事件之機率為1/6),而我們一而再、再而三地進行相同的試驗時,該事件
發生的次數比例,就會愈來愈接近這個值。范恩聲稱,特定事件的機率,是該事

件長期發生次數的比例。
在范恩提出的想法中,並不是機率的數學理論推導出大數法則,反而是大數法則
推導出機率,這就是以次數為基礎來定義機率(frequentist definition of probability)
但是在1921年,凱因斯(John M. Keynes, 1883~1946) 推翻這種定義方式,認為它不
是一種有用或有意義的解釋,並指出這種定義有許多根本的矛盾,因而無法應用
於大多數的情況。
在正式使用數學方法來架構假設檢定時,尼曼重回范恩提出的次數定義。尼曼利
用這個定義,來證明自己對假設檢定中的P值的解釋是合理的。在尼曼—皮爾生的
理論裡,科學家先設定一個定值,如0.05,之後,當顯著性檢定的P值小於或等於
0.05時,就棄卻原始假設;長期來看,他們就有剛好5%的機會,棄卻一個正確的

原始假設。
這就是當前流傳的假設檢定法,大家強調的是尼曼所採行的次數理論方法。但是
,我們太容易把尼曼—皮爾生假設檢定理論,視為是在以次數的理論方法探討機
率,因而也容易忽略尼曼觀點當中更重要的內涵:為了檢定原始假設,必須有一
組定義明確的對立假設。
連費雪也誤解了尼曼的深層內涵,他只注意到顯著水準的定義,忽略了其他的重
要觀念,比如檢定力,以及對於對立假設的必要定義。
儘管尼曼的基本觀念受到這些扭曲,假設檢定還是成為科學研究中應用得最多的
統計工具。現在大部分的科學期刊都要求論文的作者,把假設檢定納入他的數據
分析裡,甚至連科學期刊外的領域也受到影響,如藥物管理機構、法庭等,假設
檢定已經滲入所有統計科學的支派。
雖然尼曼—皮爾生假設檢定理論擠身統計學的巔峰地位,可是一路上遭受許多的
挑戰,尤其是費雪從一開始就加以攻擊,且在他有生之年持續攻擊這個理論,1960
年代晚期的考克斯(David Cox)發表一篇清晰的分析,指出假設檢定在科學上的實

際用途,同時也證明了尼曼的次數解釋不符合實際狀況,1980年代戴明(William E.
Deming)攻擊假設檢定的觀念,認為整個想法是荒謬的。
另有些人則將尼曼—皮爾生理論的觀念予以發展,二次大戰時,沃德(Abraham
Wald)把尼曼取自范恩的次數定義加以擴充,發展成統計決策理論的領域。萊曼
(Eric Lehmann)則訂出許多用來判斷良好檢定法的準則,於1959年寫了一本有關

假設檢定的重要教科書,這是對尼曼—皮爾生假設檢定描述得最完整的一份資
料。
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-2 21:50:01 | 顯示全部樓層

喝下午茶的女士測試的結果為何?

至於那位試喝下午茶的女士最後如何了?費雪並沒有描述那個夏日午後在劍橋所做
的實驗結果。但是,當天下午也在場的史密斯教授(Hugh Fairfield Smith)告訴我們,
她分辨出每一杯茶,完全答對,厲害吧!她所依靠的不是機率,而是累積的經驗與
仔細的判斷。


========================================================================


摘要結束!
總帖子數排名︰40

升級   23.35%

發表於 2008-10-6 10:43:44 | 顯示全部樓層

回覆 12# pighead 的帖子

老師    我看了    太感動了~~~~
總帖子數排名︰4

升級   100%

 樓主| 發表於 2008-10-6 12:07:52 | 顯示全部樓層

回覆 17# 李仔 的帖子

我剛剛才送出這本書給一位畢業的研究生,鼓勵她要過一個屬於她自己的人生,
一個可以實現自己夢想,並且幫助別人實現夢想的人生,最重要的是從年輕就開
始,到她人生終點前就不會有後悔。
我也要學生開始列出自己一生想要完成的夢想,這叫做The Bucket List,前一陣
子有部片子叫做    一路玩到掛,可以去百視達之類的店租來看,正好配合這本書
一起看,對我們的啟發會很多。
12
返回列表 發新帖
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

手機版|Archiver| 台灣群英養豬網

Copyright © 2001-2013 Comsenz Inc. All Rights Reserved.

Powered by Discuz! X3.4

快速回復 返回頂部 返回列表