Subsections

確率と確率変数

事象と確率

標本空間

ある偶然を伴う実験の結果が, $ \omega_1$, $ \omega_2$, $ \omega_3$, $ \cdots$, $ \omega_s$ のいずれかに属するとき,これらの結果すべての 集合を標本空間と呼ぶ(以下では,これを$ \Omega$ と表す). 標本空間を規定することは,以下のことを行うことを意味している.
  1. 対象の限定
  2. 結果の範囲の規定
  3. 結果の記号化

事象

標本空間の部分集合を事象と呼ぶ(以下では,これを $ E$$ F$ で表す). 事象は

$\displaystyle E=\{\omega\vert \omega {\rm に関する条件}\}$ (12)

という形で規定される.

事象の種類

  1. 全事象($ U$):すべての結果の集合
  2. 空事象($ \phi$):どの結果も含まない集合
  3. 余事象($ \bar{E}$):$ E$ に属さない事象の集合
  4. 根本(根元)事象:ただひとつの結果からなる集合
  5. 和事象($ E\cup F$) :$ E$$ F$ の少なくとも一方が属している事象
  6. 積事象($ E\cap F$) :$ E$$ F$ の両方に属している事象
  7. 排反事象:一方が起これば他方は決して起こらないという事象の関係. 例えば, $ E$$ F$ が排反ならば $ E \cap F =\phi$ である.

確率

事象 $ E$ に含まれる根元事象の数を $ n(E)$ とするとき,事象 $ E$ の確率 $ P(E)$

$\displaystyle P(E) = \frac{n(E)}{n(\Omega)}$ (13)

である.

確率の公理

確率の公理

確率論は,コルモゴロフが導入した「確率論の公理(証明無しで 成立を仮定した事項.今風の言葉で言えば「お約束」)」から始める のが普通である1. コルモゴロフが導入した確率論の公理は以下の3点である.
  1. 任意の事象 $ E$ について

    $\displaystyle 0 \le P(E) \le 1$ (14)

  2. $\displaystyle P(\Omega) = 1$ (15)

  3. $ E_1$, $ E_2$, $ E_3$, $ \cdots$ が可算無限個の排反な事象ならば

    $\displaystyle P(E_1\cup E_2 \cup \cdots ) = P(E_1) + P(E_2) + \cdots$ (16)

余事象の法則

$\displaystyle P(\bar{E})=1-P(E)$ (17)

証明
$ E\cup \bar E = \Omega$ かつ $ E \cap \bar E = \phi $ より

$\displaystyle P(E)+P(\bar E) = P(E\cup \bar E)=P(\Omega) = 1$ (18)

よって,

$\displaystyle P(\bar{E})=1-P(E)$ (19)

条件つき確率と独立性

条件つき確率

ふたつの事象 $ E$$ F$ があり, $ P(F)>0$ であるとき

$\displaystyle P(E\vert F) = \frac{P(E\cap F)}{P(F)}$ (20)

を「事象 $ F$ を条件とする事象 $ E$ の条件つき確率」という.

独立

$ P(E\vert F)=P(E)$ であるとき,事象 $ E$$ F$ は独立であるという.

ベイズの定理(反転公式)

互いに排反で

$\displaystyle \sum_{i=1}^k P(E_i) = 1$ (21)

となるような $ k$ 個の事象 $ E_i$ について, $ P(F)>0$ ならば

$\displaystyle P(E_i\vert F) = \frac{P(E_i)P(F\vert E_i)}{\sum_{i=1}^{k} P(E_i)P(F\vert E_i)}$ (22)

である.これをベイズの定理という. 証明
定義より $ P(E_i\vert F)=P(E_i\cap F)/P(F)$ である.また, $ P(F\vert E_i) = P(F\cap E_i)/P(E_i) = P(E_i\cap F)/P(E_i)$ より, $ P(E_i\vert F)=P(E_i\cap F)/P(F)$ の和をとって, $ P(F)=P(E_1)P(F\vert E_1)+P(E_2)P(F\vert E_2)+\cdots P(E_k)P(F\vert E_k)$ である. よって,式(23)が成立する.
[
l]第2週の課題

課題2

3人の死刑囚 A,B,C がいる.明日,3人の囚人のうち2人が処刑される ことがわかった.しかし,囚人達には誰が処刑されるかは知らされて いない.囚人 A は看取に「2人が処刑されるのだから B と C の少なくとも ひとりは処刑される.処刑される者のひとりの名前を教えてほしい」と 要求したところ,看取は「B は処刑される」と言った.このとき, A が処刑される確率,および C が処刑される確率をベイズの定理を用いて 求めよ.

確率変数と分布関数

標本空間 $ \Omega$ 上で定義された実数値関数 $ X(\omega )$ あって, 任意の実数 $ x$ に対して $ X(\omega )$$ x$ 以下となるような 根源事象の集合 $ E$ によって決定される関数 $ F(E)$ を一般に 確率変数と呼んでいる. 確率($ P(E)$)は確率変数のひとつである. 確率変数が離散型確率変数であるとは,確率変数のとり得る 値が有限個または可算無限個あるときをいう. このとき $ X(\omega )$ $ X_i (i=1,2, \dots )$ という値をとる 確率を

$\displaystyle P_{x_i} = P(X=x_i)$ (23)

と定義しておく. 確率変数が連続型確率変数であるとは,確率変数のとり得る 値が非可算無限個あるときをいう. 連続型確率変数は,確率変数は必ずひとつの値を持つにも かかわらず,その値をとる確率が離散型確率変数のようには 定義できないことに注意しなければならない. 詳細は積分論にゆずって,ここでは立ち入らないことにする. そのかわり,以下に示すように分布関数を定義して その分布関数をもとにして連続型確率変数の表現方法に ついて考えることにする. 分布関数とは,

$\displaystyle F(x)=P({\omega \vert X(\omega ) \le x})$ (24)

によって定義される関数である.これは事象 $ \omega$ の実現値が $ x$ よりも低くなる確率を表している.離散型確率変数の分布関数は

$\displaystyle F(x)=\sum_{x_i\le x} p_{x_i}$ (25)

と表され,連続型確率変数の場合には

$\displaystyle F(x)=\int_{-\infty }^x f(\xi)d\xi$ (26)

と表される.ここで f(x) は $ X$ の確率密度関数と呼ばれ,

$\displaystyle f(x) \ge 0$ (27)

かつ

$\displaystyle \int_{-\infty}^\infty f(x) dx =1$ (28)

である.この密度関数を用いることによって,連続型確率変数は 表現される. 離散型確率変数 $ X$ の期待値とは

$\displaystyle \mu =E[X]=\sum_{t=1}^\infty x_i p_i$ (29)

である. 連続型確率変数 $ X$ の期待値は

$\displaystyle \mu =E[X]=\int_{-\infty}^\infty x f(x)dx$ (30)

である. 確率変数の関数 $ g(x)$ の期待値も定義することができ, それぞれの確率変数について

$\displaystyle E[g(X)]=\sum_{t=1}^\infty g(x_i) p_i$ (31)

$\displaystyle E[g(X)]=\int_{-\infty}^\infty g(x) f(x)dx$ (32)

である.とくに $ X$ の期待値(平均とも言う)からのずれの 平方の期待値は $ X$ の分散と呼ばれ,

$\displaystyle \sigma^2=E[(X-\mu)^2]=\sum_{t=1}^\infty g(x_i) p_i$ (33)

$\displaystyle \sigma^2=E[(X-\mu)^2]=\int_{-\infty}^\infty g(x) f(x)dx$ (34)

分散の平方根を標準偏差という.分散については

$\displaystyle \sigma^2 = E[X^2]-\mu^2$ (35)

が成立する. ここで,以前に説明した統計用語としての平均や分散と 確率用語としての平均や分散の相違点について考えてみてほしい. 統計が何をしようとしているのかが解るし,確率論から 統計をサポートするためには何を示せば良いのかを 考えるきっかけになる.

確率分布

任意の条件に対して確率を計算するために必要な式は何だろうか? 離散型確率変数の場合には,個々の確率を数値で表すことができるので すべての独立事象の確率が与えられれば計算が可能である. また連続型確率変数の場合には,求める確率は確率密度関数を積分 することによって与えられるために,確率密度関数の形が与えられれば 計算が可能である. このため,離散型確率変数については全ての独立事象の確率を 表す式を確率分布と呼び,連続型確率変数については確率密度関数を 示す式を確率分布と呼ぶ.以下では,さまざまな確率分布について 考えて行く.

2項分布

2項分布とは 確率 $ p$ の試行が $ n$ 回繰り返されたときに,着目した事象が $ k$ 回起こる確率を示す分布であり,

$\displaystyle b(k\vert p) = {}_nC_k p^k(1-p)^{n-k},\qquad k=1,2,\dots, n$ (36)

と表される.平均と分散はそれぞれ,

$\displaystyle \mu = np$ (37)

$\displaystyle \sigma^2 = np(1-p)$ (38)

である. 平均については

$\displaystyle \sum_{k=0}^n {}_nC_k p^k(1-p)^{n-k}=1$ (39)

の両辺を $ p$ で微分して,両辺を $ p(1-p)$ 倍することに よって得られる式を変形すればよい. 分散は平均の式の両辺を $ p$ で微分して変形を行うことで 得られる.

ポワソン分布

ポワソン分布

$\displaystyle p(k\vert\lambda ) = \frac{\lambda^k}{k!}e^{-\lambda}$ (40)

という確率分布を持つ. これは二項分布に対して,期待値( $ np=\lambda$)を一定のままで, $ p\to 0$ かつ $ n\to \infty$ という極限操作を行った結果として得られる.

多項分布

$ n$ 回の独立試行の結果が $ k_1$, $ k_2$, $ \cdots$, $ k_n$ 回の $ E_1$, $ E_2$, $ \cdots$ $ E_c$ という事象に分けられるとき, その確率分布を多項分布という.多項分布は

$\displaystyle m(k_1, k_2, \cdots , k_c\vert p_1, p_2, \cdots , p_n )=
 \frac{n!}{k_1!k_2!\cdots k_c!}p_1^{k_c}p_2^{k_c}\cdots p_c^{k_c}$ (41)

で与えられる.

一様分布

定義された範囲内にあるすべての値が同じ確率で生じる分布を一様分布 という.その確率密度関数は,

正規分布

おそらく確率論のの中でも最も重要な分布だろう. 次の3つの条件を満たす確率密度関数によって表される分布を 正規分布という.
  1. 真の値をとる確率は他の確率よりも大きい.
  2. 実現回数を非常に多くしたときの期待値は真の値となる.
  3. 真の値からずれが大きい値ほど実現しにくい.
正規分布の形

平均(真の値) $ \mu$,分散 $ \sigma^2$ の正規分布 $ N(\mu, \sigma^2)$ の 確率密度関数$ P(x)$は,

$\displaystyle f(x\vert\mu , \sigma^2 )=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2}
 \left(\frac{x-\mu}{\sigma}\right)^2}$ (42)

である.特に $ N(0, 1)$ を標準正規分布という.
図 1: 正規分布の確率密度関数の例
\resizebox{15cm}{!}{\includegraphics{normaldist.eps}}
正規分布の性質

積分が$ 1$になることは, $ t=(x-\mu )/\sigma $ と変数変換をして 極座標変換を行えば良い. 平均値が $ \mu$ になることは,上の性質から $ \mu$ で一回微分して 得られる.分散が $ \sigma^2$ になることも,更に $ \mu$ で微分して みることで得られる. 変数変換 $ t=(x-\mu )/\sigma $ によって,任意の正規分布が 標準正規分布に焼き直すことができるために,この変換は重要である. 例えば,

$\displaystyle \int_a^b f(x\vert\mu , \sigma^2) = 
 \int_{\frac{a-\mu}{\sigma}}^...
...{1}{2}t^2}dt =
 \int_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}}f(t\vert,1)dt$ (43)

とできる.従って,$ N(0, 1)$ についてのデータがあれば,すべての 積分が可能であることがわかる.実際に $ N(0, 1)$ の場合については 数表や計算アルゴリズムが存在している. 良く用いられる数値として,

$\displaystyle \int_{-2.58}^{2.58}{\sigma}f(t\vert,1)dt=0.99$ (44)

$\displaystyle \int_{-1.96}^{1.96}{\sigma}f(t\vert,1)dt=0.95$ (45)

がある.

カイ2乗分布

$ X_1, X_2, \cdots , X_k$ が互いに独立に分布 N(0,1) に従うと仮定する. このとき,新しい確率変数 $ \chi_k^2$

$\displaystyle \chi_k^2 = \sum_{i=1}^k X_i^2$ (46)

で定義する.このとき $ \chi_k^2$ の従う分布を自由度 $ k$ の カイ2乗分布と呼び,その密度関数は

$\displaystyle f_k(\chi_k^2)=\frac{1}{2^{k/2}\Gamma (k/2)}(\chi_k^2)^{k/2-1}e^
 {-\chi_k^2/2}$ (47)

である.ここで

$\displaystyle \Gamma (k) = \int_0^{\infty} e^{-x}x^{k-1} dx$ (48)

であり,ガンマ関数と呼ばれる. $ \chi_k^2$ の期待値と $ (\chi_k^2)^2$ の期待値は,

$\displaystyle \int_0^\infty \chi_k^2 f_n(\chi_k^2)d\chi_k^2 = k$ (49)

$\displaystyle \int_0^\infty (\chi_k^2)^2 f_n(\chi_k^2)d\chi_k^2 = k(k+2)$ (50)

から,平均が自由度に等しいこと,分散が自由度の2倍となることが わかる.

脚注

... のが普通である1
正しくはコルモゴロフの公理の前に 「標本空間」と「$ \sigma$集合族についての定義があるが, 今回の講義では応用を前提としているので「$ \sigma$集合族」の 説明については省略している.しかし実際のところ, $ \sigma$集合族の 話がないと,この公理のありがたさが解らないかもしれない.
Takashi Yoshino
平成17年4月8日