[筆記] 統計學的世界
這本書的重點著重在統計的基礎常識,注意在這裡我用的詞是常識而不是觀念,雖然這兩者常常是比鄰而居的,但是比起學習如何套用數學公式,這本書不教統計學的計算方法,數學也用的很淺,對於公式的原理通常都快速略過(一位作者的厲害之處往往在他願意捨棄多少內容,而不是他放入多少東西),但他教的是當我們需要把統計學應用到生活上時,該如何系統化的思考該注意哪些部份。
本書關注四個重點,數據如何產生,如何分析資料、用機率思考、統計推論。
一 數據從何而來
母體 :就是你想知道的對象的全體。 樣本:就是母體的一部份。我們從樣本蒐集資訊,對母體做出結論。 個體(individual):一組數據描述的對象,可能是人、動物、其他東西 變數(variable):個體的特質,不同的個體可能有不同的特質,像是人的性別、年齡 觀測研究:只在不干擾的情況下蒐集資訊 實驗:對個體進行某些處理,研究是否特定處理會導致反應改變,實驗最棒的好處是可以作為因果關係的證據。
二 好樣本壞樣本
你有很多方法可以取得爛樣本,像是使用方便抽樣,例如你要判斷一箱橘子裡頭有多少爛掉,只打開箱子抽取表面的橘子。或是在站在西門町做民意調查,只挑選那些看起來面對微笑無害的阿宅做訪問。或是使用自發性回應樣本,例如報紙或電視節目,讓觀眾自己打電話進來,那麼多半是對該議題有強烈立場的人才會採取行動。
最公正的樣本是使用簡單隨機樣本(Simple Random Sample, SRS),幫每個母體編號,用隨機的方式挑選個體作為樣本。你可以用電腦或是隨機亂數表做抽樣。
三 樣本告訴我們什麼?
首先要知道的是,樣本絕對沒有辦法告訴我們有關母體的確實資訊,但我們會利用樣本的事實,當作母體真實訊息的估計。我們會用 參數和統計量這兩個詞彙。 參數(parameter):描述母體的數字,參數是一個固定的值,但是我們實際上並沒辦法知道。
統計量(statistic):描述樣本的數字,一旦取得了樣本就可以計算出來,但是換個樣本,統計量的值就可能會改變。我們常用統計量來估計參數。
另外,我們要定義兩個詞,一個是偏差,另一個是變異性。 偏差(bias):當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。 變異性(variability):當我們取很多樣本時,統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大,一個好的抽樣方法應該要有小偏差和小變異性。
隨機抽樣的好處是能夠消除偏差,另外,使用大樣本可以降低變異性。 信賴敘述包含了誤差界限(margin of error)和信賴水準(level of confidence),像是我們有95%信心,在所有成年人當中,有54~60%曾在過去12月裡買過彩券。 因為統計量會有變異性,所以我們會用誤差界限來描述統計量和實際的值可能會差多少。95%的信心的誤差界限大約是1/sqrt(n),因此如果需要把誤差界線減半,需要使用四倍大的樣本。
使用隨機樣本所得到的統計量的變異性並不受母體大小影響,只要母體至少比樣本大100倍就好。另外樣本的統計量的變異性是由樣本大決定,而不是由母體大小決定。這對於小型研究團隊來說不是好消息,因為不管你是要對全台灣的民眾還是對全校的學生做統計,只要你要求同樣的誤差界限,就要使用同樣大的SRS。