1987年,是印度傳奇數(shù)學(xué)家拉曼努揚(SrinivasaRamanujan,1887-1920)的百年誕辰。為了紀念他,有一系列的活動。當(dāng)代著名統(tǒng)計學(xué)者, 出生于印度的勞氏(C. Radhakrishna Rao,1920),也應(yīng)邀做了三場演講。之后,印度統(tǒng)計學(xué)研究所(IndianStatistical Institute)基于勞氏的演講稿,于1989年,為他出版了統(tǒng)計與真理一書。此書于1997年發(fā)行第二版。
在*9版的序文中,勞氏提到:
學(xué)生時代,我主修數(shù)學(xué)一種從給定前提下演繹結(jié)果的邏輯。后來我念統(tǒng)計學(xué)一種從經(jīng)驗中學(xué)習(xí)的理性方法,及從給定的結(jié)果驗證前提的邏輯。我已認識到數(shù)學(xué)及統(tǒng)計,在人類為提昇自然知識,及有效管理日常事務(wù)所做的一切努力中,占有重要性。
我相信:
在最終的分析中,所有知識皆為歷史。
在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)。
在理性的世界里,所有判斷皆為統(tǒng)計。
這一段話,大致說明數(shù)學(xué)及統(tǒng)計的重要性,及其各自的內(nèi)涵。
長期以來,高中數(shù)學(xué)均涵蓋概率的題材,其中古典概率(即以“相同的可能性”來解釋概率)又占不小比例。因此概率常與排列組合連在一起。而排列組合是較“數(shù)學(xué)的”。雖然學(xué)生有時會被那些復(fù)雜的題目,弄得昏頭轉(zhuǎn)向。但那只是技巧性方面,在認知方面,大抵沒太大迷惑。近年來,鑒于統(tǒng)計學(xué)的重要性,高中數(shù)學(xué)里,逐漸加進統(tǒng)計的題材。這其中95學(xué)年開始實施的“普通高級中學(xué)數(shù)課程綱要”中,新增的信賴區(qū)間與信心水準,卻帶給師生不小困擾。此新加入的統(tǒng)計題材,由于需取樣,得到數(shù)據(jù),使概率論里“隨機性”的特質(zhì)顯現(xiàn)出來。而隨機性與傳統(tǒng)數(shù)學(xué)中特有的“必然性”,乃完全不同的概念。雖有人認為概率與統(tǒng)計,“這類數(shù)學(xué)所需的前置準備不多”,因此提前教沒問題。但隨機性的概念,在理解層次上,其實并不是那么容易能掌握。
翻開統(tǒng)計史,信賴區(qū)間,是另一著名統(tǒng)計學(xué)者,出生于波蘭,1938年才移民至美國的奈曼(JerzyNeyman,1894-1981。他是我的師祖,即我指導(dǎo)教授的指導(dǎo)教授),于1934年演講中首度提出。他的演講結(jié)束后,大會主席包雷(Arthur Lyon Bowley, 1869-1957)于致詞中提到,“我不很確定此信心不是一信心戲法”。要知奈曼信賴區(qū)間的概念剛提出時,大部分的統(tǒng)計學(xué)者,包括被視為是現(xiàn)代統(tǒng)計學(xué)之創(chuàng)始者,英國的費雪(Sir Ronald Aylmer Fisher, 1890-1962,常以R.A.Fisher稱之)均難以接受。在所謂95%信賴區(qū)間中,那95%究竟是指什么?是概率嗎?如果是,那又是什么的概率?雖奈曼取巧地以信賴區(qū)間,來稱呼此一他創(chuàng)造出來的東西,而避用概率一詞。但包雷及其同行,當(dāng)然一眼便看穿這個手法。這段過程,可參考Salsburg(2001)Chapter12(但該書中的A.L.Bowley應(yīng)該是G.M.Bowley),及Sawilowsky(2003)一文。
歲月匆匆,七十多年過去了,今日統(tǒng)計學(xué)家,當(dāng)然已完全弄懂信賴區(qū)問的意義。只是在大學(xué)里,不論在概率與統(tǒng)計、統(tǒng)計學(xué),及數(shù)理統(tǒng)計等教科書中,信賴區(qū)間通常屬于后半部的題材。也就是大學(xué)生在相關(guān)的課程中,開始接觸信賴區(qū)間時,大致上已有相當(dāng)夠的概率統(tǒng)計基礎(chǔ)。如今此題材卻獲數(shù)學(xué)家青睞,繼95課綱加入后,98課綱(后改為99學(xué)年度起逐年實施)仍保留此題材。但由于缺乏足夠的預(yù)備知識,高中生吸收不易,乃可預(yù)期。
為何此“有點深度”的題材,卻能堂而皇之地進入高中數(shù)學(xué)教材?猜想主要原因是其重要性。這只要看到媒體上,??d各種調(diào)查結(jié)果的信賴區(qū)間,及信心水準,便可了解。
在有些統(tǒng)計教科書里,信賴區(qū)間占一章的份量。對不同的參數(shù),不同的分布,可有不同的信賴區(qū)間;即使同一參數(shù)且同一分布,也可以不同的方法,得到不同的信賴區(qū)間。有時因條件不足,或計算復(fù)雜等原因,只好退而求其次,得到近似的信賴區(qū)間。當(dāng)然這時需要一些條件,及利用一些定理。信賴區(qū)間亦可比較優(yōu)劣。要知統(tǒng)計里有各種推論方法,但因處理的是隨機現(xiàn)象,少有倚天既出,誰與爭鋒的方法。而評比時,也要訂出評比準則。否則就像有個停止不動的鐘,及一每日慢1分鐘的鐘,如何判定何者較準?前者可是每日皆有完全準確的時刻,后者卻是每1,440天(一天有1,440分),才有一完全準確的時刻。不講清楚如何評比,將會各說各話。
“常態(tài)分布,信賴區(qū)間與信心水準的解讀”中說:
高中程度的統(tǒng)計推論只做隨機變數(shù)期望值的估計,它的背后理論是中央極限定理。要介紹中央極限定理,就需引入常態(tài)分布。此部分僅做通識性的介紹,以活動方式建立學(xué)生對于中央極限定理的直觀。對一固定的信心水準,給出信賴區(qū)間公式,再讓學(xué)生以亂數(shù)表模擬或?qū)嶒炌稊S正面出現(xiàn)概率為p的銅板n次,代入信賴區(qū)間公式,以說明信心水準的意涵;并以此解讀,何以大多數(shù)學(xué)生所得的信賴區(qū)間都會涵蓋p?
這段“解讀”不但有若干問題,也沒能說明白。如*9句中“它的背后理論是中央極限定理”,便不知從何而生?此非統(tǒng)計學(xué)里的看法。由于課綱中的解讀晦澀不明,那些認真教學(xué),想將學(xué)生教懂的高中數(shù)學(xué)教師,只好鉆研其中原理,各自解讀。有些還提出自認能“厘清這些概念”的文章。只是其解讀,往往仍失之精準。
為何信賴區(qū)間的概念,常會淪于類似郢書燕說的下場?追根究底,還是不少學(xué)習(xí)者,未能正確了解概率的涵意。這是本文寫作的動機。
概率的意義
一骰子有6個面,一擲之下,會得到偶數(shù)之概率為何?骰子看起來沒有異樣,就假設(shè)每個面出現(xiàn)的概率皆相同,即均為1/6。而偶數(shù)面有2,4,及6等3個。因此所求之概率為3/6。這就是所謂古典的概率,基本假設(shè)是“相同的可能性”。先求出觀測的現(xiàn)象共有幾種可能,再求出其中有幾件是我們有興趣的。將后者除以前者,即為所要的概率。雖說是“古典”,這種概率的意義,至今仍處處可見。採用的范圍包含諸如抽籤、玩撲克牌,及玩樂透彩等。又如某項工作徵才,報名的有82人,錄取5人。若沒有什么特別的資訊,便只能假設(shè)每人被錄取的概率皆相同,即皆為5/82。
2009年7月底8月初,世界高爾夫球王老虎伍茲(TigerWoods),參加在美國密西根州舉行的別克公開賽(Buick Open)。第1輪打完,落后領(lǐng)先者多達8桿,排名并列95。引發(fā)他可能難逃職業(yè)生涯,首次連續(xù)2場比賽(前一場是英國公開賽(The Open Championship,在英國之外常稱為BritishOpen)),提前被淘汰的話題。不過老虎畢竟不能小覷,打完前3輪后,伍茲躍居首位。
這時大家看法丕變,一致認為這座冠軍盃,幾乎可說是他的囊中物了。因過去的紀錄顯示,伍茲如能帶著54洞領(lǐng)先進入決賽圈,戰(zhàn)績是35勝1敗。你要不要猜后來他贏了沒有?運動比賽,往往有過去資料可參考,此時相同的可能性便不宜用了。36次中成功35次,“相對頻率”為35/36(約0.972)。這種以相對頻率來解釋概率,是常有的作法。適用能重復(fù)觀測的現(xiàn)象。會不會有爆出冷門的時候?當(dāng)然有。只是對一特定事件,用過去多次同樣情況下,該事件發(fā)生的相對頻率,來估計下一次事件發(fā)生的概率,乃是在沒有更多資訊下,常被認為一屬于客觀的辦法。
某君看上一女孩,驚為天人,覺得這是他今生的新娘。評估后信心滿滿,自認追上的機會有8成。旁人卻都不看好,問他8成這一數(shù)字,是如何冒出來的?該君舉證歷歷,一個又一個的跡象,顯示那女孩對他很有好感。這個0.8的概率,就是所謂主觀概率。主觀概率當(dāng)然也可基于過認識概率35去一些客觀的事實。只是即使面對同樣的資料,不同的人,可能有不同的判定,因而給出不同的主觀概率(看過他其實沒那么喜歡你(He’s Just Not That Into You)嗎?片中那個叫Gigi的女孩,便常誤解男生所透露的訊息)。有些現(xiàn)象就是不能重復(fù)觀測。如核能電廠的意外,及彗星撞地球等。以追女孩為例,大約少有女孩,會讓你做實驗,反覆地追,然后數(shù)一數(shù)其中成功幾次,來定下她會被你追上的概率。對這類無法重復(fù)觀測的現(xiàn)象,在談概率時,主觀概率就常派上用場。每天早上出門,我們不是慣于抬頭看天,判斷一下今天下雨的概率有幾成?只是往往父母認為的概率會大些,該帶傘,而小孩所認為的下雨概率會小些。
雖說“主觀”,但仍要合理。例如,考試有及格與不及格。若認為會及格的概率為0.9,這沒問題,人總要有點自信,但若又同時擔(dān)心有0.8的概率會不及格,那就不行了。各種可能性發(fā)生概率相加要為1。即使是主觀,可以獨排眾議,仍須自圓其說。不能說,既然是主觀,便可以任意自定各事件之概率。因此不論是那一種對概率的解釋,都自然地,或說必須要滿足一些共同的規(guī)則。這點大家應(yīng)能理解。
上述三種是常見對概率的解釋,大抵也就是人們評估事件發(fā)生可能性之大小的幾種思維。雖是針對不同的情況,但常能交互著運用。大家都聽過曾參殺人的典故吧!有個與曾子同名的人殺人,好心者告訴曾母“曾參殺人”。曾母說“吾子不殺人”,繼續(xù)織布。過一會兒,又有人來說“曾參殺人”。曾母仍繼續(xù)織她的布,這么好的兒子怎可能殺人?但當(dāng)?shù)谌伺軄碚f“曾參殺人”,曾母就害怕了,丟掉織布器具翻墻而逃。所謂“其母懼,投杼踰墻而走”。這故事出自戰(zhàn)國策秦策二。因此當(dāng)拿到一銅板,可主觀地認為,政府發(fā)行不該會有偏差,兩面出現(xiàn)的概率,應(yīng)皆為1/2(這也可以是基于相同可能性之想法)。若投擲10次,正面出現(xiàn)8次,可能覺得有些奇怪。若繼續(xù)投擲,結(jié)果100次中,出現(xiàn)80個正面,這時相對頻率的觀點,很可能便將顯現(xiàn)。類如曾母,調(diào)整看法,不再認為此銅板公正。
當(dāng)然,你可以不信邪,不論投擲的結(jié)果如何,皆認為那只是短暫的情況,意志堅定地認為這是一公正的銅板。這并沒有不行,就像會有母親,即使再多的人證,只要她沒親眼看到,她就不信兒子會殺人。要知隨機現(xiàn)象,事件只要概率為正,不論概率值多小,便皆可能發(fā)生。畢竟銅板正面出現(xiàn)的概率為何,只有天曉得。但引進概率與統(tǒng)計,乃為了協(xié)助我們做決策可以更精準。而決策可以與時推移,并非不能更改。有如氣象局對颱風(fēng)會帶來多少雨量,須密切掌握新的動向,而隨時修正。要有隨機的思維,如前言中勞氏所說的,從給定的結(jié)果,驗證前提。因此針對100次投擲,出現(xiàn)80個正面,多數(shù)人面對此結(jié)果,還是會認為0.8的正面出現(xiàn)概率,較0.5的概率可信。稍后我們會再來看,10次中的8次,與100次中的80次,相對頻率同為0.8,但提供的資訊,是否有異?
雖然已有上述三種對概率的解釋,也涵蓋了不少實際生活中所遇到的情況,數(shù)學(xué)家當(dāng)然不會在此止步。他們喜歡抽象化,及一般化。像解方程式,會尋求公式,以表示出某類方程式的解,而非只滿足于求出一個個的特例之解。又如當(dāng)完全了解實數(shù)系統(tǒng)后,便會以公理化的方式,定義實數(shù)系統(tǒng)。即給一集合,沒說是數(shù)字的集合,對其中的元素定義二運算,并給出10條遵循的公理(axiom,規(guī)則)。你好奇該二運算是否一為加法,一為乘法?而怎么沒有減法與除法?名可名,非常名,數(shù)學(xué)家不認為你提出的是重要的問題。但用心體會后,你終于發(fā)現(xiàn)原來二運算,其一等同于加法,其二等同于乘法。也看出此集合中,有一元素根本就是0,而有一元素根本就是1。數(shù)學(xué)家對你的洞察力,仍不以為意,但同意你可以這樣想。
什么叫以公理化的方式,來引進概率?先要有一個集合,稱做樣本空間,當(dāng)做某一觀測之所有可能結(jié)果的集合??梢哉娴挠羞@一觀測,或只是虛擬的。樣本空間的某些子集合,是我們有興趣的,這些就是一個個的事件。所有事件也構(gòu)成一集合。最后定出一概率函數(shù),即對每一事件,給一介于0,1間的值,為該事件之概率。樣本空間、事件的集合,及概率函數(shù),三者便構(gòu)成概率空間(probability space)。這其中對樣本空間沒有太大要求,但不可以是空集合。而事件的集合,要滿足若干條件。簡單講,就是你有興趣的事件不能太少。譬如說,不能只對某事件A發(fā)生有興趣,卻對A不發(fā)生沒興趣。因此事件的集合要夠大,至少該有的都得納入。這有點像婚宴前擬賓客名單。可以請很少人,如只有雙方家長。而一旦多列了某人,與他同樣親近的人便也要一併請。所以每多列1人,將不只是增加1人而已,而會隨之增加幾位。又概率函數(shù),既然以概率之名,當(dāng)然要符合過去大家對概率的認知,滿足一些基本的條件。
在概率空間的架構(gòu)下,不論採用何種方式解釋概率的人,都可各自表述,找到他所以為的概率意義。但因抽象化后,不再局限于銅板、骰子,及撲克牌等,便能討論較一般的問題,有夠多的理論可挖掘。
與數(shù)學(xué)的其他領(lǐng)域相比,概率論的發(fā)展是較晚的。但公理化后,概率論便快速地有了深而遠的發(fā)展,并成為數(shù)學(xué)中一重要的領(lǐng)域。這都要歸功于二十世紀那位重要的概率學(xué)家,俄國的科莫果洛夫(Andrey Nikolaevich Kolmogorov,1903-1987),于他1933年出版,那本不到100頁的小書概率論的基礎(chǔ)(Foundationsof the Theory of Probability)中所奠定。在此書中,他說:
概率論作為數(shù)學(xué)學(xué)科,可以而且應(yīng)該從公理開始發(fā)展,就如同幾何、代數(shù)一樣(Thetheory of probability as mathematical discipline can and shouldbe developed from axioms in exactly the same way as Geometry and Algebra)。
何處是概率天地
有法國牛頓之稱的拉普拉斯(Pierre-Simon,Marquis de Laplace, 1749-1827)曾說:
這門源自考慮賭博中的機運之科學(xué),必將成為人類知識中最重要的一部分,生活中最重要的問題中的大部分,都將只是概率的問題(This science, which originated in the consideration of games ofchance, should have become the most important object of human knowledge. Themost important questions of life are, for the most part, really only problemsof probability)。
概率是針對隨機現(xiàn)象。但世上并非每件事都是隨機的,我們說過還有必然性。假設(shè)投擲一兩面皆是人頭的銅板,并觀察會得到那一面。你曉得這是一必然現(xiàn)象,但仍可說會出現(xiàn)人頭的概率為1,而其他情況出現(xiàn)的概率為0。也就是視此為一“退化的”隨機現(xiàn)象。
某些物理學(xué)家,說不定認為對投擲銅板,由給定投擲的速度、角度、地面的彈性、銅板的形狀及重量等條件,可算出銅板落地后,會那一面朝上,因此這不是隨機。至于樂透彩的開獎,只要起始條件都能測出,則會開出那一號球,也能算出,因此這也不是隨機。但你大約也知道所謂蝴蝶效應(yīng)(butter?y effect)。量測極可能有誤差,而有時一些微小的改變,影響卻可能很大。因此我們寧可相信這些都是隨機現(xiàn)象。
某些神學(xué)家,可能認為一切其實都是按照神的旨意在進行,只是我們不知而已。說不定真是如此。你看過杰遜王子戰(zhàn)群妖(Jason and the Argonauts)嗎?這是一部基于希臘神話的電影,內(nèi)容與十二星座中的牡羊座有關(guān),1963出品。我雖是幼時看的,至今仍印象深刻。片中杰遜王子遭遇的各種突如其來的災(zāi)難,以及一次又一次英勇的逢兇化吉,不過是天后赫拉(Hera),與天神宙斯(Zeus)在較勁,分別作梗及協(xié)助。但若無從了解神的旨意,對于未來,也只好視為隨機
隨著科技進步,人們逐漸弄明白很多現(xiàn)象的來龍去脈。例如,我們知道女性一旦懷孕,嬰兒性別便已確定。但對一大腹便便的婦女,好事者由于不知,仍可猜測其生男生女之概率??荚嚽跋Γ瑢W(xué)生們雖認真準備,但還是絞盡腦汁猜題,各有其認為考出概率很大的題目。老師獲知后,覺得好笑。課堂中已一再暗示明示,那些題會考,幾乎都該能確定了,何需再猜?實則試題早已印妥,而學(xué)生不知考題,且未體會老師的暗示及明示,所以仍可以大猜一通。另外,諸如門外有人敲門,你好奇是男是女?老師要你猜拿在背后的水果,是橘子或蘋果?同學(xué)蓋住落地的銅板,要你猜正面或反面朝上?這類明明已確定的事,本身其實并不隨機,只是對你而言,卻有如惠子在秋水篇所說的“子非魚”,當(dāng)然可猜魚快樂的概率。
但對已命好題目的老師,去判斷那一題會考出的概率,就沒什么意義了。因?qū)λ裕恳活}會考出的概率,只有1或0,不會是其他值。同樣地,對看到背后水果的人,水果會是橘子或蘋果的概率,將只能說1或0。隨機與隨意不同。我們說過了,概率中那套邏輯,是有夠大的彈性,讓人能揮灑,只是仍要合理,否則就是抬槓了。若你明明知道那是蘋果,硬要說它是橘子的概率為0.5;或明明已從醫(yī)生處掌握一切訊息的待產(chǎn)媽媽,還說生下來,是男是女的概率皆為0.5,那就不是在談概率了。
解釋概率
在第2節(jié)我們以概率空間的方式引進概率。由于樣本空間可以是虛擬的,此時事件也就是虛擬的。但假設(shè)真的有一項觀測,如投擲一個4面體,4面分別標示點數(shù)1,2,3,4,并觀測所得點數(shù)。則樣本空間為1,2,3,4之集合。事件的集合可以取那一個*5的,也就是包含樣本空間之所有子集所構(gòu)成的集合。你如果學(xué)過排列組合,便知此*5的事件集合中,共有16(2的4次方)個元素。至于概率函數(shù),假設(shè)點數(shù)1,2,3,4出現(xiàn)的概率,分別為0.1、0.2、0.3,及0.4,相加為1。至于任一事件的概率,就看該事件包含1,2,3,4中那幾個數(shù),再把對應(yīng)的概率相加便是。如一事件中恰包含2,4,則該事件的概率為0.2+0.4=0.6。馀此類推。這就建立了一概率空間。對同一樣本空間,可定義出很多不同的概率空間。
就算你已接受了概率空間的概念,反正數(shù)學(xué)家就是常給一些自得其樂的定義,仍可能會好奇,所謂點數(shù)1出現(xiàn)的概率0.1,究竟是什么意思?是每投10次,點數(shù)1恰出現(xiàn)1次嗎?非也!有個修過概率論的數(shù)學(xué)系畢業(yè)生,好心地對你解釋如下:
假設(shè)投擲n次,點數(shù)1出現(xiàn)a次,則相對頻率a/n與0.1之差的絕對值,會大于一給定的正數(shù)(不管它多小)之概率,將隨著n的趨近至無限大,而趨近至0。
務(wù)實的你,很可能不覺得這樣的解釋很實際。先提出疑問“什么是趨近至無限大?”就是一直投擲,不可停止,日出日落,春去秋來,繼續(xù)投擲,即使夸父追日成功了,無限大也仍未達到,還得投擲。那位數(shù)學(xué)系畢業(yè)生,一聽到你問起無限大,如魚得水,這是他在數(shù)學(xué)系四年寒窗,學(xué)到的幾招獨門絕活之一。你不得不停止無限大這個話題,因連夸父追日,你也覺得豈有成功時?如何能接受解釋概率,還得涉及無限大?但還一點你不吐不快的是“我就是不了解概率值的意義,怎么卻用概率的概念來解釋給我聽?”
想解釋概率值的意義,將會在概率及無限大,一層又一層的打轉(zhuǎn)。這有如想去定義什么叫做點,結(jié)果將如同陷在線團中,學(xué)步維艱。最后只好說,點是無定義名詞。但無論如何,你應(yīng)可理解,對前述4面體,僅投擲1次,是無法顯示點數(shù)1出現(xiàn)概率0.1,那個0.1的意思。概率并非只看“少數(shù)幾次”的結(jié)果。概率是在大樣本(n很大)下,威力才顯現(xiàn)。概率值的意義,既然不能以一套可接受的邏輯來說明。那么退而求其次,可否讓人略微了解概率值的意思?或者說(除非是虛擬,只是在求一些概率值),你拿一4面體,且宣稱點數(shù)1出現(xiàn)的概率為0.1,怎么樣才知道你講的是真的,而非信口開河,或者說記錯。
之前那位數(shù)學(xué)系畢業(yè)生的解釋,這時便能派上用場。此即大數(shù)法則(law of large numbers)之一簡單的版本。數(shù)學(xué)上的意思為,事件出現(xiàn)的相對頻率,會“概率收斂“至事件發(fā)生的概率。要知隨機世界中,仍有些法則要遵循,大數(shù)法則是其中很重要的一個。當(dāng)然我們已指出了,實際上并無法觀測事件無限多次。那是否可說,事件出現(xiàn)的相對頻率,當(dāng)觀測數(shù)夠大,須接近事件發(fā)生的概率?也非如此。事件只要概率為正,便都可能發(fā)生。所以,不論觀測數(shù)再大,都不能排除很偏頗(如觀測1,000,000次,點數(shù)1出現(xiàn)的次數(shù)為0,或1,000,000次)的事件發(fā)生。但是,這時統(tǒng)計學(xué)家跳出來了,可以做一檢定,檢定點數(shù)1出現(xiàn)的概率是否真為0.1,這是屬于統(tǒng)計學(xué)里假設(shè)檢定(testing hypothesis)的范疇。簡單講,是以在某一假設(shè)下,會觀測到這樣的結(jié)果,是否算不尋常?所謂不尋常,是指發(fā)生的概率很小,小于某一預(yù)設(shè)的值。若屬于不尋常,則當(dāng)初的假設(shè)就不宜接受。附帶一提,當(dāng)假設(shè)一銅板為公正,則投擲100次,出現(xiàn)至少80次正面,較投擲10次,出現(xiàn)至少8次正面,前者是更不尋常的,因它發(fā)生的概率,遠比后者小。所以,在同樣獲得八成以上的正面數(shù)下,投擲數(shù)愈大,將會使我們更相信此銅板非公正,而接受它出現(xiàn)正面的概率,至少是0.8。這說明在統(tǒng)計里,樣本數(shù)愈大,將使我們的推論愈精準。
在隨機世界,究竟何者為真,常屬未知。我們往往無法“證明”那件事是真實的。不過是一個個的假設(shè),端看你接受那一假設(shè)。4面體點數(shù)1出現(xiàn)的概率,是否真為0.1,即使投擲再多次,都無法證明其真?zhèn)?。只能說數(shù)據(jù)顯示“可以接受”,或“無法接受”概率為0.1。這里面有一套機制,以決定接受或不接受。
另外,對一4面體,也可估計點數(shù)1出現(xiàn)的概率,有一些不同的估計法,可以得到不同的估計量。在數(shù)學(xué)中,使用不同的方法,須導(dǎo)致相同的結(jié)果。所謂殊途同歸。但統(tǒng)計里,除非做些限制,否則常無定于一尊的方法。對不可測的未來,我們常要做估計,統(tǒng)計在這方面,能扮演很好的角色。諸如銅板出現(xiàn)正面的概率,及病人的存活率等,皆能估計。但有時覺得以一個值估計,雖然明確,但估計值很難恰好等于真實值,一翻兩瞪眼,常估計不準。下節(jié)信賴區(qū)間的概念,因而產(chǎn)生。
信賴區(qū)間
我們常對某一未知的量做估計。未知的量可以是某事件發(fā)生的概率,某分布的參數(shù)(如期望值及變異數(shù)等),或某物件之壽命等。這些未知的量,可通稱為參數(shù)。有時會以一區(qū)間來估計參數(shù),并給出此區(qū)間會涵蓋該參數(shù)之概率。這就是所謂區(qū)間估計,所得的區(qū)間,稱為信賴區(qū)間。而區(qū)間涵蓋參數(shù)之概率,則稱為此區(qū)間之信心水準(con?dencelevel)。與概率一樣,信心水準是一介于0,1間的值,常事先給定,且以百分比表示。90%、95%,及99%等,都是常取的值。
數(shù)據(jù)(data)是統(tǒng)計學(xué)家做決策之主要依據(jù)。若缺乏數(shù)據(jù),他們往往將一籌莫展。來看一簡單且常見的情況。假設(shè)欲估計一銅板出現(xiàn)正面之概率p。很自然地,便投擲若干次,譬如說n次,并觀測n次的結(jié)果。這個過程便稱為取樣。在本情況中,各次投擲的結(jié)果并不重要??偣驳玫恼鏀?shù),以a表之。知道a,就已掌握全部資訊(a稱為充分統(tǒng)計量(su?cient statistic))。給定信心水準,并利用n及a,可得一信賴區(qū)間,但作法并不*10。亦即對于p,有不同的信賴區(qū)間公式。但課綱的寫法,好像信賴區(qū)間的公式*10。此處由于其中涉及二項分布,計算復(fù)雜些,如果n夠大(n太小則不行),我們??山逯B(tài)分布來近似。這要用到概率論里另一重要的法則—中央極限定理(Central limit theorem)。必須一提,只有以常態(tài)分布來近似時,才需用到中央極限定理,并非求信賴區(qū)間皆要用到此定理。
對估計銅板出現(xiàn)正面之概率p,取樣前,信賴區(qū)間為一隨機區(qū)間,若信心水準設(shè)定為95%,則有(或精準地說“約有”,如果該信賴區(qū)間只是近似的)0.95的概率,信賴區(qū)間會包含p。取樣后,得到一固定區(qū)間。則p會屬于該區(qū)間的概率,將不是1便是0,而不再是p了。為何如此?很多人對此常感困惑。
我們先以下例來說明。假設(shè)某百貨公司周年慶,顧客購物達一定金額,便能自1至10號中抽1彩球。若抽中5號,今天在該公司的花費,可獲30%抵用券。在抽球之前,你知道有0.1的概率能獲抵用券,機會不算小。一旦抽出,一看是3號,獲抵用券的概率當(dāng)然便是0了。
這類例子很多。打擊手揮棒前,可以說打出安打之概率為0.341,打完不是安打就非安打,0.341已派不上用場了。再給一例。假設(shè)某銀行發(fā)行的樂透彩,每期自1至42號中,開出6碼為頭獎號碼。你簽了一注6碼,開獎前,你知道很容易“至少中1碼”,因概率約為0.629(見附注1)。等開獎后,你的彩券會至少中1碼之概率,將是1(若至少中1碼),或是0(若1碼皆未中)。
再看如課綱中所說,也可以亂數(shù)表模擬出現(xiàn)正面(課綱中少了“正面”二字,意思便不通)概率為p的銅板n次,以求得信賴區(qū)間。你看,p根本是事先設(shè)定,模擬所得之一固定區(qū)間,p有沒有落在其間,一看便知,如何能說該區(qū)間涵蓋p之概率為0.95?就算你不是模擬,而是實際拿一銅板投擲,則p只是未知,卻為某一定值(說不定發(fā)行銅板的單位知道),投擲后所得之固定信賴區(qū)間,已無隨機性了,它只會涵蓋p,或不會涵蓋p??梢赃@樣想,對同一銅板,每人所得之95%信賴區(qū)間有異,如何能個個皆宣稱,其區(qū)間涵蓋p之概率為0.95?
那95%有何用?0.95是一概率值,而概率值從來就不是只看一次的實驗結(jié)果。大約可以這么說,如果反覆實驗,而得到很多信賴區(qū)間,則其中會包含p的信賴區(qū)間數(shù),約占全部區(qū)間數(shù)的95%。所以,0.95的意義,乃如同上一節(jié)我們對概率的解釋。但要留意的是,對同一個p,如果全班40人,所得到的40個95%信賴區(qū)間,其中包含p的個數(shù)未超過85%(即未超過34個),也不要太驚訝。此概率約為0.01388(附注2),是不太大,但只要班級數(shù)夠多,便不難發(fā)生。98課綱說“大多數(shù)學(xué)生所得的信賴區(qū)間都會涵蓋p”,實在缺乏隨機的概念。
情境解讀
概率既然與我們的生活習(xí)習(xí)相關(guān),因此若能善用概率,將有助于在隨機世界中,更精準的做決策。只是卻往往概率應(yīng)用不易,得到的概率值,常被認為是錯的。而且還眾說紛紜,各提出不同的概率值。個中原因何在?一主要原因,即情境解讀有誤。
過去大家在數(shù)學(xué)課程中,會遇到所謂應(yīng)用題。題目看懂,寫出數(shù)學(xué)式子后,就是解數(shù)學(xué)了。這時便可拋開原先那段冗長的敘述。但在概率里,有些看似簡單的情境,因解讀不同,會導(dǎo)致南轅北轍的結(jié)論。底下給幾個例子來看。
在電影決勝21點(英文片名就是21)中,那位數(shù)學(xué)教授于課堂上提出一個問題。有3扇門,其中1扇門后有汽車,另兩扇門后為山羊。你選擇第1扇門后,主持人打開第2扇門,見到山羊。問你這時該不該換選第3扇門?有位學(xué)生答:
Yes, because my chance of getting the carwill increase from 33.33% to66.67% by switching from door 1 to door 3.
教授則說“Very good!”,認同其看法,也就是該換。有些人對此提出質(zhì)疑。
比較正確的講法應(yīng)該是,若主持人事先知道汽車在那扇門后,則他會打開1扇門后是山羊的門(這是較合理的作法,否則游戲便無法進行了),這時若換選第3扇門,則如電影中那位學(xué)生所述,得到汽車的概率,將由1/3增加為2/3。但若主持人事先不知汽車在那1扇門后(這當(dāng)然是少見的情況),只是隨機地自第2及第3扇門中,挑一扇打開,且剛好門后是山羊,則便不用換,因換或不換,得到汽車之概率,皆為1/2。
但是讀者不知是否注意到,在主持人事先知道汽車在那一扇門后的情況中,我們其實還隱含做一假設(shè)。即若第2及第3扇門后皆是山羊,則主持人乃隨機地(即各以1/2的概率)打開第2或第3扇門。事實上,可以有更一般的假設(shè)。當(dāng)?shù)?及第3扇門后皆是山羊,假設(shè)主持人分別以q及1/q的概率,打開第2或第3扇門,其中0≤q≤1。則換選第3扇門,得到汽車的概率成為1/(1+q)(見附注2)。原來此概率會受主持人是如何打開第2扇門的影響!很多人可能未想到這點。由于1/(1+q)≥1/2,所以換,仍是較好的選擇。
再看一例。有一對夫妻剛搬進某社區(qū),大家只知他們有兩個小孩,并不知性別。某日社區(qū)一管理員,見到此家之媽媽,帶著家中一小孩在玩耍。若該小孩是女孩,求此家兩小孩皆為女孩之概率。很多人以為此問題不難,認為所求概率就是1/3。其實此問題比我們想像的復(fù)雜很多。關(guān)鍵在如何將“見到此家之媽媽,帶著家中一女孩“,轉(zhuǎn)化為適當(dāng)概率空間中的事件。也就是要講清楚,究竟如何帶小孩出門?要注意的是,前述事件并不等同于“此家至少有一女孩”!
最后看另一常出現(xiàn)于概率論教科書中的例子。平面上有一單位圓,隨機地畫一條弦,求弦長大于此圓的內(nèi)接等邊三角形之邊長的概率。利用幾何,單位圓的內(nèi)接等邊三角形之邊長可求出。但如何是隨機地畫一條弦呢?要知由1至n的n個正整數(shù)中,隨機地取1數(shù),其意義較清楚,就是每一數(shù)被取中的概率皆為1/n。自區(qū)間[0,1]中隨機地取1數(shù),其意義也還明白,就是此數(shù)會落在[0,1]之任一子區(qū)間的概率,為該子區(qū)間之長度。但隨機的畫弦,是如何畫法?此處對于“隨機”一詞,可以有好多種解釋。解釋不同,畫弦的方式將不同,因而求出的概率也就不同。
上面這幾個例子告訴我們,在處理概率問題時,情境要定義清楚。用術(shù)語來說,就是概率空間要明確給出,否則將導(dǎo)致各說各話。有時雖未給出概率空間,但情境較簡單,大家有共同看法,這時未特別強調(diào)概率空間為何,還沒問題。如“投擲一公正的骰子,求點數(shù)大于4之概率”。雖只是簡單的描述,但不至于有疑義。當(dāng)對情境有疑義時,就要如莊子在秋水篇講的,“請循其本”,把概率空間調(diào)出來。此有如政治上或社會上,遇到有重大爭議時,就要祭出憲法,看有沒違憲,并由大法官解釋。對一給定的情境,要很謹慎的面對。否則即使是概率統(tǒng)計專業(yè)人士,也可能解讀錯誤。
情境解讀之外,概率中一些獨特的概念,像是條件概率,獨立性,及隨機取樣等,也是應(yīng)用概率時,得謹慎留意的。