Subsections

統計の基礎

１変数の場合

この副節では，主に，ある同一の事象を観測した結果として得られた数値の組 (

，

, $\cdots$ ,

)の性質をいくつかの数値を用いて表現することについて考えていく．これらの集まりは何種類の数値を用いて表すべきだろうか？当然のことながら，データの個数分の数値を使えば，この数字の集まりは完全に表現することができる．しかし，それでは性質を抽出したことにはならない．得られた結果の性質を表す量として，以下のような量が挙げられるだろう．

データの代表値

はじめに，得られた結果を全体の情報をひとつの数値として表す場合，どのようなものが最適であるかを考えよう．良く用いられるのは，以下の３つの量である．

最頻値(モード)：最大度数を与えるクラスの代表値．
中央値(メディアン)：データを大きさの順に並べ変えた時の中央にある値．
平均値：データの総和をデータ数で割った値．

平均値(

)は

$\displaystyle m(x) = \frac{1}{n} \sum_{i=1}^n x_i$

(1)

で計算される．おそらく平均値が最もポピュラーな代表値の決定方法だろう．平均値を代表値と仮定することの妥当性については，後で議論することになる．上記の３種類の値は，統計的に「タチが良い」データであれば同じような値をとる．逆に，「タチが悪い」データであると異なった値をとりどれを代表値とすれば良いかは一概には言えなくなる．「タチが悪い」データの例としては，ピークがふたつあるような分布を持つデータセットが挙げられる．

データのばらつき具合を与える量

得られたデータをふたつの数値で表現することを考えよう．ひとつめの数値としては，前述の「代表的な値」が選ばれるだろう．ふたつめの数値としては，どのような値が考えられるだろうか？ふたつめの数値としては「ばらつきの程度を示す量」を考えよう．観測されるデータにはバラツキが伴われるのが普通なので，平均値が同じであっても，その平均値が意味している値の信頼度は異なることが考えられるからだ．このような量には，以下のようなものがある．

範囲(レンジ)：(データの最大値)－(データの最小値)
(標本)平均偏差：平均値からのずれ(偏差)の絶対値の平均

$\displaystyle d=\frac{1}{n}\sum_{i=1}^n \vert x_i - m(x)\vert$ (2)
(標本)分散：偏差の2乗の平均

$\displaystyle \sigma^2 (x) = \frac{1}{n} \sum_{i=1}^n \left\{ x_i - m(x) \right\}^2 = m(x^2) - m(x)^2$ (3)
(標本)標準偏差：分散の平方根

$\displaystyle \sigma (x) = \sqrt{\frac{1}{n}\sum_{i=1}^n\left\{ x_i - m(x)\right\}^2}$ (4)
変動係数：標準偏差を平均で割ったもの

$\displaystyle v = \frac{\sigma (x)}{m(x)}$ (5)

範囲は結果の幅を表現しているので，値が小さいほどデータのばらつきも小さくなると考えられる．しかし，偶然に，平均よりもかなり大きな値や平均よりもかなり小さな値がでたときに，その結果をひきずってしまう．平均偏差(または標本平均偏差)は平均値からのずれの大きさの平均なので，(範囲のようにふたつの特殊なデータに注目するのではなく)どのデータも等しい重みをおいてずれの程度を見ているという点でばらつきの程度を範囲よりはきちんと評価していると言える．問題は絶対値を用いていることにある．絶対値は計算結果の正負によって異なる取り扱いをしなければならないために，解析的に操作しにくい．分散(または標本分散)は平均偏差が持つ絶対値の取り扱いの繁雑さを避けるために平均からのずれを自乗した量を用いている．これによって場合分け計算を取り扱う繁雑さは無くなったもののバラツキの程度の示す量として，元データの単位とは異なる量を用いることになる (たとえば，元データが cm であった場合には，分散の値は cm

となる)．標準偏差(または標本標準偏差)は分散の平方根をとることで，ばらつきの指標を元データと同じ単位にしている．分散と同じくらい頻繁に使われる量ではあるが，平方根を用いるので取り扱いが多少繁雑になる．変動係数は標準偏差を平均値で割ることで，ばらつきの度合を無次元で表現している．

２変数の場合

次に，同時に計測できる二つの量 (

) を観測した (

), (

), $\cdots$ , (

) というデータの組を考える．このときに問題になるのは，二つの量がどのような関係にあるかである．

回帰直線

得られたデータの組を

に当てはめることを考える．最小自乗法によると，このとき，係数

と

は，

$\displaystyle a=\frac{(\sum y)(\sum x^2)-(\sum x)(\sum xy)}{n(\sum x^2)-(\sum x)^2}$

(6)

$\displaystyle b=\frac{n(\sum xy)-(\sum x)(\sum y)}{n(\sum x^2)-(\sum x)^2}$

(7)

である．最小自乗法は実測値と推定値との間のずれを残差平方和（least mean square）であるとし，この「ずれ」が最も少ないパラメータの値を最適値とする手法である．上記の実測値に対して，推定される曲線を $y=f(x; a, b, c, \dots)$ （ $a, b, c, \dots$ はパラメータ）とおくと，残差平方和は，

$\displaystyle S=\sum_{i=1}^n \left\{y_i - f(x_i; a, b,c, \dots)\right\}^2$

(8)

となり，最適なパラメータを得るための方程式は，

$\displaystyle \frac{\partial S}{\partial a}$	$\displaystyle =$	$\displaystyle 0,$
$\displaystyle \frac{\partial S}{\partial b}$	$\displaystyle =$	$\displaystyle 0,$
$\displaystyle \frac{\partial S}{\partial c}$	$\displaystyle =$	$\displaystyle 0,$
	$\displaystyle \vdots$		(9)

となる．なぜ残差平方和を最小にするパラメータが良いパラメータなのかは考察してみる価値があるが，これは後の「対数尤度」までの課題としておこうと思う．前述の直線に近似する場合の式は

$\displaystyle \frac{\partial }{\partial a}\left( \sum_{i=1}^{n}\{y_i-(a+bx_i)\}\right)$	$\displaystyle =$	$\displaystyle 0,$
$\displaystyle \frac{\partial }{\partial b}\left( \sum_{i=1}^{n}\{y_i-(a+bx_i)\}\right)$	$\displaystyle =$	$\displaystyle 0,$

を

と

について解くことで得られる．一度自分で導出することをお勧めする．

相関係数

簡単に言えば

次元空間にある二つの単位ベクトルの内積を求める作業である．

$\displaystyle r$	$\displaystyle =$	$\displaystyle \frac{1}{n} \sum_{i=1}^n \left[ \frac{x_i - m(x)}{\sigma (x)}\right] \left[ \frac{y_i - m(y)}{\sigma(y)}\right]$	(10)
	$\displaystyle =$	$\displaystyle \frac{m(xy)-m(x)m(y)}{\sqrt{\sigma (x)^2 \sigma (y)^2}}$	(11)

Takashi Yoshino
平成17年4月8日