next up previous contents
下一頁: Age-Structured Populations 上一頁: APPLICATIONS OF INTEGRATION 積分的應用 前一頁: The Continuous Case 連續模式   目 錄

The Normal Distribution 常態分配

定量遺傳學涉及公制特徵,例如植物高度,垃圾尺寸,人體體重,等等。 這些特徵被稱為定量的特徵。有很多定量的特徵,它們的次數分怖產生一條鐘型的曲線。 例如,計算果腹果蠅在腹部一些特別部分 (第五腹甲) 的硬毛,Mackay (1984) 發現硬毛的數量根據一條鐘型的曲線變化。 (此為圖示 8.10,由 Hartl 和 Clark 在 1989 年更新。)

在圖示 8.10 的這個配合長條圖的平滑曲線,和常態分佈成正比 (這個曲線並沒有按造階梯狀分割, 所以在曲線下方的面積約等於 1 ) 。這個常態分佈的機率密度函數是以兩個參數, $ \mu$$ \sigma$ 表示,它們都可以從資料中判斷得知。 這個變數 $ \mu$ 可以是任何實數,這個變數 $ \sigma$ 是正實數 (我們說明 $ \mu$$ \sigma$ 幾乎相等) 。密度函數如下所示:


\fbox{\begin{minipage}{13.2cm}
\noindent 當變數為 $ \mu $\ 和 $ \sigma $\ 的崤lq 態...
...-\mu ) ^2/2{\sigma }^2}, -\infty < x < \infty \end{displaymath}\end{minipage}
}


變數 $ \mu$ 被稱為期望值,而變數 $ \sigma$ 被稱為標準差。在問題 1中, 我們研究這個常態分佈的機率密度函數的形狀 (在圖示 8.11 中的曲線) , 我們將特性收集於此。

  1. [1.] f (x) 在 x = $ \mu$ 時對稱
  2. [2.] f (x) 最大值產生在 x = $ \mu$
  3. [3.] f (x) 的反曲點產生在 x = $ \mu$ - $ \sigma$ x = $ \mu$ + $ \sigma$

因為 f (x) 是機率密度函數,所以

f (x) $\displaystyle \geq$ 0    且    $\displaystyle \int_{-\infty }^{\infty }$f (x)dx = 1

到現在我們所擁有的工具,我們並不能證明說機率密度函數正規化到 1 。無論如何,我們可以證明的是平均值就是我們在本章所定義的期望值。 也就是說,

$\displaystyle \mu$ = $\displaystyle \int_{-\infty }^{\infty }$xf (x)

(我們將會在問題 2 中做這個微積分) 。此外,如果一個隨機變數 X 伴隨著變數 $ \mu$ 和變數 $ \sigma$ 呈現常態分佈,則

在 $ [ a , b ] $ 中的母體分割 = f (x) = $\displaystyle {\frac{1}{\sigma \sqrt{2\pi}}}$e- (x - $\scriptstyle \mu$)2/2$\scriptstyle \sigma^{2}$dx

使用基本函數的積分技巧不可能計算這積分。 它只能被以數值的方式來被計算。 當變數 $ \mu$ = 0 和 $ \sigma$ = 1 的常態分佈的表格,對於

F(x) = $\displaystyle {\frac{1}{\sqrt{2\pi}}}$e-z2/2dz

列出它們的值 ( F(x) 的表格被列在附錄 B 中)

在此情況下,我們只需有三個值。在期望值為 $ \mu$ 、標準差為 $ \sigma$ 的常態分佈密度函數下的區域, A(k) ,範圍在 $ \mu$ - k$ \sigma$ $ \mu$ + k$ \sigma$ 之間, k=0、1、2 ,分別是


k A(k)
1 68%
2 95%
3 99%
 


見圖示 8.12 所以存在隨機變數 X 的分佈是期望值為 $ \mu$ 、標準偏移量為 $ \sigma$ 的常態分佈時,會有 68% 的分佈機率在與期望值相距一個標準偏移量之內, 95% 的分佈機率在與期望值相距兩個標準偏移量之內, 99% 在與期望值相距三個標準偏移量之內。 這個現象描述了標準偏移量的意義:我們所好奇的隨機變數 X 的分散情況。

以上的這些機率也可以用下面的方式描述。隨機變數 X 的分佈是期望值為 $ \mu$ 、標準差為 $ \sigma$ 的常態分佈時,我們從此分佈中任意取樣, 我們取樣的結果會有 68% 的機率落在與期望值相距一個標準偏移量的範圍內。 所以,我們可以說隨機變數 X 的範圍在區間 [$ \mu$ - $ \sigma$,$ \mu$ + $ \sigma$] 之內的機率等於0.68, 即可寫成

P(X $\displaystyle \in$ [$\displaystyle \mu$ - $\displaystyle \sigma$,$\displaystyle \mu$ + $\displaystyle \sigma$]) = 0.68

其中 P 代表機率的意思。 同樣地

P(X $\displaystyle \in$ [$\displaystyle \mu$ - 2$\displaystyle \sigma$,$\displaystyle \mu$ + 2$\displaystyle \sigma$]) = 0.95    且    P(X $\displaystyle \in$ [$\displaystyle \mu$ - 3$\displaystyle \sigma$,$\displaystyle \mu$ + 3$\displaystyle \sigma$]) = 0.99

利用期望值和標準偏移量來估計機率



例題 1     當隨機變數 X 的期望值 $ \mu$ = 4 和標準偏移量 $ \sigma$ = 1.5 時。 我們做一取樣;找出以期望值為中心,使得取樣機率有 95% (還有 99% ) 的區間。


解     因為 95% 的機率區間是在期望值相距兩個標準偏移量之內 (見圖示 8.13) ,所以區間在

[4 - (2)(1.5), 4 + (2)(1.5)] = [1, 7]

我們可以寫成

P(X $\displaystyle \in$ [1, 7]) = 0.95

同樣地, 99% 的機率區間在

[4 - (3)(1.5), 4 + (3)(1.5)] = [- 0.5, 0.5]

一樣可以寫成

P(X $\displaystyle \in$ [- 0.5, 0.5]) = 0.99



例題 2     若有一個取樣量以 X 為標誌,是期望值 $ \mu$ = 3 、 標準偏移量 $ \sigma$ = 2 的常態分佈,我們選擇取樣為整數時,那取樣值超過 9 的機率是多少?


解     因為 9 = 3 + 3(2) ,所以我們可以看出機率是在與期望值相距三個標準偏移量之內 (見圖示 8.14) , 也就是說有 99% 的可能在與期望值相距三個標準偏移量之內;反過來說也就是有 1% 的可能在區間 [$ \mu$ - 3$ \sigma$,$ \mu$ + 3$ \sigma$] 之外。 再加上因為常態分佈的機率密度函數為對稱於期望值的形式,也就是說比 $ \mu$ - 3$ \sigma$ 更小,或是比 $ \mu$ + 3$ \sigma$ 更大的區域大小相同。 所以取樣值超過9的機率為 (1%)/2 = 0.5% 。 我們可以寫成

P(X > 0.9) = 0.005



例題 3     若有一個取樣量以 X 為標誌呈期望值 $ \mu$ 和標準偏移量 $ \sigma$ 的常態分佈時, 請問取樣值在 $ \mu$ + $ \sigma$ 以下的機率有多少?


解     因為有 68% 的機率在與期望值相距一個標準偏移量的範圍內,再加上常態分佈的機率密度函數為對稱於期望值, 所以可想而知有 34% 的機率在區間 [$ \mu$,$ \mu$ + $ \sigma$] 之內。因為上述的對稱性,也可看出有 50% 的機率會落在小於期望值的範圍內。 所以 34% + 50% = 84% 的分佈機率在 $ \mu$ + $ \sigma$ 以下,如圖示8.15所示。我們可寫成

P(X < $\displaystyle \mu$ + $\displaystyle \sigma$) = 0.84


用表格找機率 這個表格是有著期望值為 0 和標準差為 1 的常態分佈 (見附錄 B) ,可以用來算常態分佈於期望值為 $ \mu$ 和標準差為 $ \sigma$ 的機率。 我們開始解釋如何使用有著期望值為 0 和標準差為 1 之常態分佈的表格,此分佈稱為標準常態分佈,其機率密度函數為

f (u) = $\displaystyle {\frac{1}{\sqrt{2\pi}}}$e-u2/2du

對於 - $ \infty$ < u < $ \infty$ 此表格是列出

F(z) = $\displaystyle \int_{-\infty}^{z}$$\displaystyle {\frac{1}{\sqrt{2\pi}}}$e-u2/2du

的值 就幾何圖形上而言, F(z) 是從左到 x = z 的線,在機率密度函數曲線下圍成的面積,如圖示 8.16 就機率原理上而言, F(z) 等於從左到 z 所觀察到的機率。 舉例來說,當 z = 1 時,我們發現 F(1) = 0.8413 ,也就是說,這個觀察到的機率會小於或等於 1 ,就像這邊是 0.8413。

它同樣也可以表示成母體的 84.13% ,為一個小於等於 1 的數。 如你所見,這個表格並沒有給出所有 z 為負的數。為了要計算出這樣的數,我們採用機率密度函數的對稱性。 例如,如果我們希望計算出 F(- 1) ,我們從機率密度函數的圖看出,面積一直到 -1 的左邊相當於面積大於 1 的右邊。 (見圖示 8.17)

我們可以寫成

\begin{displaymath}\begin{aligned}
F (-1) & =\int_{-\infty}^{-1}\frac{1}{\sqrt{...
...e^{-u^2/2}du \\
& =1-F (1) =1-0.8413=0.1587 \\
\end{aligned}\end{displaymath}

這邊我們使用到總共面積為 1 的這個事實。

我們可以使用這個表格去算,有著期望值為 $ \mu$ 標準差為 $ \sigma$ 的常態機率密度函數曲線下方的面積,也就是說,這個表格允許我們去找到

$\displaystyle \int_{a}^{b}$$\displaystyle {\frac{1}{\sigma \sqrt{2\pi}}}$e- (x - $\scriptstyle \mu$)2/2$\scriptstyle \sigma^{2}$dx

此處 - $ \infty$ < a < b < $ \infty$ 。 如果我們利用變數代換

$\displaystyle {\frac{du}{dx}}$ = $\displaystyle {\frac{1}{\sigma }}$,        mu = $\displaystyle {\frac{x-\mu }{\sigma }}$

我們可以找出

$\displaystyle \int_{a}^{b}$$\displaystyle {\frac{1}{\sigma \sqrt{2\pi}}}$e- (x - $\scriptstyle \mu$)2/2$\scriptstyle \sigma^{2}$dx = $\displaystyle \int_{(a-\mu) /\sigma}^{(b-\mu) /\sigma}$$\displaystyle {\frac{1}{\sqrt{2\pi}}}$e-u2/2du

我們現在了解了,右手邊的面積與標準常態分佈曲線下介於 $ {\frac{a-\mu }{\sigma }}$ $ {\frac{b-\mu }{\sigma }}$ 的面積是相等的。 也就是說,在常態分佈曲線下考慮中間值 $ \mu$ 與標準差 $ \sigma$ 介於 ab 之間的面積大小與 標準常態分佈曲線下介於 $ {\frac{a-\mu }{\sigma }}$ $ {\frac{b-\mu }{\sigma }}$ 的面積相等。我們在下面這個例題來舉例說明



例題 4     假設 X 的量是常態分佈,中間值是 3 ,標準差是 2. 求區間 [2, 5] 與母體的比值,也就是求 P(X $ \in$ [2, 5])。


解     要解決這個問題,我們必須先計算

$\displaystyle \int_{2}^{5}$$\displaystyle {\frac{1}{2\sqrt{2\pi}}}$e$\scriptstyle {\frac{(x-3) ^2}{8}}$dx

使用變數變換 u = (x - 3)/2 我們可以發現,當

x = 2      $\displaystyle \Rightarrow$  u = $\displaystyle {\frac{2-3}{2}}$ = - $\displaystyle {\textstyle\frac{1}{2}}$

且,當

x = 5     $\displaystyle \Rightarrow$  u = $\displaystyle {\frac{5-3}{2}}$ = 1

因此,8.7 的積分相當於

\begin{displaymath}\begin{aligned}
\int_{-1/2}^{1} \frac{1}{\sqrt{2\pi }}e^{-u^2...
...(\frac{1}{2}\biggr) -1=0.8413+0.6915-1=0.5328 \\
\end{aligned}\end{displaymath}

因此, P(X $ \in$ [2, 5]) = 0.5328

計算標準常態分佈曲線圖下的面積比寫出這些積分還要來得簡單,像圖 8.19 中所示。看圖 8.19 我們所要計算的 F(1) - F(- $ {\frac{1}{2}}$) . 因為 F(- $ {\frac{1}{2}}$) = 1 - F($ {\frac{1}{2}}$) ,所以我們須要計算 F(1) - 1 + F($ {\frac{1}{2}}$) ,也就是上面我們計算的。



例題 5     假設數量性狀 X 是常態分佈,平均值是 2 ,標準差是 $ {\frac{1}{2}}$ . 求 x 使得母體的 30% 落於 x 中。


解     我們須要求出 x 使得

$\displaystyle \int_{x}^{\infty}$$\displaystyle {\frac{1}{\sqrt{2\pi }/2}}$e- (u - 2)2/(2(1/2)2)du = 0.3

利用變數變換 z = (x - $ \mu$)/$ \sigma$ ,以 Z 表示數量,也就是,平均值為 0 標準差為 1 的常態分佈,我們可以求出

\begin{displaymath}\begin{aligned}
P (X>x) & =P (\frac{X-\mu }{\sigma }>\frac{x-...
...>\frac{x-2}{1/2}) \\
& =P (Z>2 (x-2) ) =0.3 \\
\end{aligned}\end{displaymath}

現在, P(Z > z) = 1 - F(z) = 0.3 ; 因此, F(z) = 0.7 . 我們可以求得 F(0.52) = 0.6985 $ \approx$ 0.7 . 因此

2(x - 2) = 0.52    或x     = 2.26

也就是, P(X > 2.26) = 0.3 。 因此,我們找到的 x 的值是 2.26


範例的注意事項

取得數值的資料,像是大小或微小的數值,我們可以測量整個母體。或者是從母體取出樣本,從當中找出分佈。比較困難的地方是, 我們必須取出樣本來代表整個母體,在這先不討論。即使我們假設樣本代表整個母體,仍然會有樣本是不符合的。



例題 6     下例圖表的數值代表分別從二個母體取出的二個樣本。它們所代表的值是平均值為 $ \mu$ = 0 且 $ \sigma$ = 1 的常態分佈。 每個包含圖表的隨機取樣都是常態分佈,平均值為 0 ,標準差為 1 。

  Sample 1    
-1.633 0.542 0.250 -0.166 0.032
1.114 0.882 1.265 -0.202 0.151
1.152 -1.210 -0.927 0.425 0.290
-1.939 0.891 -0.227 0.602 0.873
0.385 -0.649 -0.577 0.237 -0.289
       


  Sample 2    
-0.157 0.693 1.710 0.800 -0.265
1.492 -0.713 0.821 -0.031 -0.780
-0.042 1.615 -1.440 -0.989 -0.580
0.289 -0.904 0.259 -0.600 -1.635
0.721 -1.117 0.635 0.592 -1.362
       


上述兩個表格同時都是由隨機產生器所產生,為標準常態分配即當期望值 $ \mu$ = 0,標準差 $ \sigma$ = 1 時。

  1. [a.] 計算每個樣本中落於平均數 $ \mu$ = 0 下方的個數,並比較你在以常態分佈為基礎下所估計的值。
  2. [b.] 計算每個樣本中落於與平均數偏差一個標準差中的個數,並比較你在以常態分佈為基礎下所估計的值。
  1. [a.] 既然平均值為 0 ,透過觀察求出落於平均值的數值,我們可以簡單的算出,此觀察值為負值。在第一個樣本中,有十個觀察值 都在平均數以下;在第二個樣本中,有十四個數值在平均數以下。我們猜想有一半的樣本點在平均值之下。既然樣本點的大小為二十五, 我們猜想大約十二或十三個樣本點小於平均值。
  2. [b.] 既然標準差為 1 ,我們計數落於區間 [- 1, 1] 的觀察值數量。在第一個樣本中,有十九個這樣的觀測值;在第二個樣本中,有 十八個這樣的數值。與理論上的數值比較,注意,約有母體的 68% 落於與平均值差距為一個標準差的區間中。因此既然樣本大小為 二十五,那麼 (0.68)(25) = 19.04 ,我們猜想約有十九個觀察值將落在區間 [- 1, 1]

前面的範例中,舉例說明了非常重要的一點。即使是從同一個母體隨機取出的樣本中,也不一定相同。例如前面的範例中,我們猜測有一半 的觀測值會落於平均值。在第一個樣本中,不到一半的觀測值落在平均值;然而在第二個樣本中,有多於一半的值落於平均值。
當樣本大小增加,無論如何,它將反映出母體的增加。假如母體足夠大的話,分佈圖將會充分反應出母體的分佈。但如果你重覆試驗的話, 你將不會得到完全相同的分佈圖。如果樣本大小夠大的話,你會得到相近的結果。


next up previous contents
下一頁: Age-Structured Populations 上一頁: APPLICATIONS OF INTEGRATION 積分的應用 前一頁: The Continuous Case 連續模式   目 錄
math 2005-08-16