定量遺傳學涉及公制特徵,例如植物高度,垃圾尺寸,人體體重,等等。 這些特徵被稱為定量的特徵。有很多定量的特徵,它們的次數分怖產生一條鐘型的曲線。 例如,計算果腹果蠅在腹部一些特別部分 (第五腹甲) 的硬毛,Mackay (1984) 發現硬毛的數量根據一條鐘型的曲線變化。 (此為圖示 8.10,由 Hartl 和 Clark 在 1989 年更新。)
在圖示 8.10 的這個配合長條圖的平滑曲線,和常態分佈成正比 (這個曲線並沒有按造階梯狀分割,
所以在曲線下方的面積約等於 1 ) 。這個常態分佈的機率密度函數是以兩個參數,
和
表示,它們都可以從資料中判斷得知。
這個變數
可以是任何實數,這個變數
是正實數 (我們說明
和
幾乎相等) 。密度函數如下所示:
變數
被稱為期望值,而變數
被稱為標準差。在問題 1中,
我們研究這個常態分佈的機率密度函數的形狀 (在圖示 8.11 中的曲線) ,
我們將特性收集於此。
因為 f (x) 是機率密度函數,所以
到現在我們所擁有的工具,我們並不能證明說機率密度函數正規化到 1 。無論如何,我們可以證明的是平均值就是我們在本章所定義的期望值。 也就是說,
e- (x -
在此情況下,我們只需有三個值。在期望值為
、標準差為
的常態分佈密度函數下的區域,
A(k) ,範圍在
- k
和
+ k
之間, k=0、1、2 ,分別是
| k | A(k) |
| 1 | 68% |
| 2 | 95% |
| 3 | 99% |
見圖示 8.12
所以存在隨機變數 X 的分佈是期望值為
、標準偏移量為
的常態分佈時,會有 68% 的分佈機率在與期望值相距一個標準偏移量之內,
95% 的分佈機率在與期望值相距兩個標準偏移量之內, 99% 在與期望值相距三個標準偏移量之內。
這個現象描述了標準偏移量的意義:我們所好奇的隨機變數 X 的分散情況。
以上的這些機率也可以用下面的方式描述。隨機變數 X 的分佈是期望值為
、標準差為
的常態分佈時,我們從此分佈中任意取樣,
我們取樣的結果會有 68% 的機率落在與期望值相距一個標準偏移量的範圍內。
所以,我們可以說隨機變數 X 的範圍在區間
[
-
,
+
] 之內的機率等於0.68,
即可寫成
利用期望值和標準偏移量來估計機率
例題 1
當隨機變數 X 的期望值
= 4 和標準偏移量
= 1.5 時。
我們做一取樣;找出以期望值為中心,使得取樣機率有 95% (還有 99% ) 的區間。
解
因為 95% 的機率區間是在期望值相距兩個標準偏移量之內 (見圖示 8.13) ,所以區間在
例題 2
若有一個取樣量以 X 為標誌,是期望值
= 3 、
標準偏移量
= 2 的常態分佈,我們選擇取樣為整數時,那取樣值超過 9 的機率是多少?
解
因為 9 = 3 + 3(2) ,所以我們可以看出機率是在與期望值相距三個標準偏移量之內 (見圖示 8.14) ,
也就是說有 99% 的可能在與期望值相距三個標準偏移量之內;反過來說也就是有 1% 的可能在區間
[
- 3
,
+ 3
] 之外。
再加上因為常態分佈的機率密度函數為對稱於期望值的形式,也就是說比
- 3
更小,或是比
+ 3
更大的區域大小相同。
所以取樣值超過9的機率為
(1%)/2 = 0.5% 。
我們可以寫成
例題 3
若有一個取樣量以 X 為標誌呈期望值
和標準偏移量
的常態分佈時,
請問取樣值在
+
以下的機率有多少?
解
因為有 68% 的機率在與期望值相距一個標準偏移量的範圍內,再加上常態分佈的機率密度函數為對稱於期望值,
所以可想而知有 34% 的機率在區間
[
,
+
] 之內。因為上述的對稱性,也可看出有 50% 的機率會落在小於期望值的範圍內。
所以
34% + 50% = 84% 的分佈機率在
+
以下,如圖示8.15所示。我們可寫成
用表格找機率
這個表格是有著期望值為 0 和標準差為 1 的常態分佈 (見附錄 B) ,可以用來算常態分佈於期望值為
和標準差為
的機率。
我們開始解釋如何使用有著期望值為 0 和標準差為 1 之常態分佈的表格,此分佈稱為標準常態分佈,其機率密度函數為
它同樣也可以表示成母體的 84.13% ,為一個小於等於 1 的數。 如你所見,這個表格並沒有給出所有 z 為負的數。為了要計算出這樣的數,我們採用機率密度函數的對稱性。 例如,如果我們希望計算出 F(- 1) ,我們從機率密度函數的圖看出,面積一直到 -1 的左邊相當於面積大於 1 的右邊。 (見圖示 8.17)
我們可以寫成
我們可以使用這個表格去算,有著期望值為
標準差為
的常態機率密度函數曲線下方的面積,也就是說,這個表格允許我們去找到
e- (x -
e- (x - 
我們現在了解了,右手邊的面積與標準常態分佈曲線下介於
和
的面積是相等的。 也就是說,在常態分佈曲線下考慮中間值
與標準差
介於 a 和 b 之間的面積大小與
標準常態分佈曲線下介於
和
的面積相等。我們在下面這個例題來舉例說明
例題 4
假設 X 的量是常態分佈,中間值是 3 ,標準差是 2. 求區間 [2, 5] 與母體的比值,也就是求
P(X
[2, 5])。
解
要解決這個問題,我們必須先計算
e
= -
= 1
計算標準常態分佈曲線圖下的面積比寫出這些積分還要來得簡單,像圖 8.19 中所示。看圖 8.19 我們所要計算的
F(1) - F(-
) .
因為
F(-
) = 1 - F(
) ,所以我們須要計算
F(1) - 1 + F(
) ,也就是上面我們計算的。
例題 5
假設數量性狀 X 是常態分佈,平均值是 2 ,標準差是
. 求 x 使得母體的 30% 落於 x 中。
解
我們須要求出 x 使得
e- (u - 2)2/(2(1/2)2)du = 0.3
範例的注意事項
取得數值的資料,像是大小或微小的數值,我們可以測量整個母體。或者是從母體取出樣本,從當中找出分佈。比較困難的地方是, 我們必須取出樣本來代表整個母體,在這先不討論。即使我們假設樣本代表整個母體,仍然會有樣本是不符合的。
例題 6
下例圖表的數值代表分別從二個母體取出的二個樣本。它們所代表的值是平均值為
= 0 且
= 1 的常態分佈。
每個包含圖表的隨機取樣都是常態分佈,平均值為 0 ,標準差為 1 。
| Sample 1 | ||||
| -1.633 | 0.542 | 0.250 | -0.166 | 0.032 |
| 1.114 | 0.882 | 1.265 | -0.202 | 0.151 |
| 1.152 | -1.210 | -0.927 | 0.425 | 0.290 |
| -1.939 | 0.891 | -0.227 | 0.602 | 0.873 |
| 0.385 | -0.649 | -0.577 | 0.237 | -0.289 |
| Sample 2 | ||||
| -0.157 | 0.693 | 1.710 | 0.800 | -0.265 |
| 1.492 | -0.713 | 0.821 | -0.031 | -0.780 |
| -0.042 | 1.615 | -1.440 | -0.989 | -0.580 |
| 0.289 | -0.904 | 0.259 | -0.600 | -1.635 |
| 0.721 | -1.117 | 0.635 | 0.592 | -1.362 |
上述兩個表格同時都是由隨機產生器所產生,為標準常態分配即當期望值
= 0,標準差
= 1 時。
前面的範例中,舉例說明了非常重要的一點。即使是從同一個母體隨機取出的樣本中,也不一定相同。例如前面的範例中,我們猜測有一半
的觀測值會落於平均值。在第一個樣本中,不到一半的觀測值落在平均值;然而在第二個樣本中,有多於一半的值落於平均值。
當樣本大小增加,無論如何,它將反映出母體的增加。假如母體足夠大的話,分佈圖將會充分反應出母體的分佈。但如果你重覆試驗的話,
你將不會得到完全相同的分佈圖。如果樣本大小夠大的話,你會得到相近的結果。