Subsections

統計の基礎

1変数の場合

この副節では,主に,ある同一の事象を観測した結果として 得られた数値の組 ( $ x_1$$ x_2$$ x_3$, $ \cdots$, $ x_n$ )の性質を いくつかの数値を用いて表現することについて考えていく. これらの集まりは何種類の数値を用いて表すべきだろうか? 当然のことながら,データの個数分の数値を使えば, この数字の集まりは完全に表現することができる. しかし,それでは性質を抽出したことにはならない. 得られた結果の性質を表す量として,以下のような量が挙げられるだろう.

データの代表値

はじめに,得られた結果を全体の情報をひとつの数値として表す場合,どのような ものが最適であるかを考えよう.良く用いられるのは,以下の3つの量である.
  1. 最頻値(モード):最大度数を与えるクラスの代表値.
  2. 中央値(メディアン):データを大きさの順に並べ変えた時の中央にある 値.
  3. 平均値:データの総和をデータ数で割った値.
平均値($ m(x)$)は

$\displaystyle m(x) = \frac{1}{n} \sum_{i=1}^n x_i$ (1)

で計算される. おそらく平均値が最もポピュラーな代表値の決定方法だろう. 平均値を代表値と仮定することの妥当性については, 後で議論することになる. 上記の3種類の値は,統計的に「タチが良い」データであれば同じような 値をとる.逆に,「タチが悪い」データであると異なった値をとり どれを代表値とすれば良いかは一概には言えなくなる. 「タチが悪い」データの例としては,ピークがふたつあるような 分布を持つデータセットが挙げられる.

データのばらつき具合を与える量

得られたデータをふたつの数値で表現することを考えよう. ひとつめの数値としては,前述の「代表的な値」が選ばれるだろう. ふたつめの数値としては,どのような値が考えられるだろうか? ふたつめの数値としては「ばらつきの程度を示す量」を考えよう. 観測されるデータにはバラツキが伴われるのが普通なので, 平均値が同じであっても,その平均値が意味している値の 信頼度は異なることが考えられるからだ. このような量には,以下のようなものがある.
  1. 範囲(レンジ):(データの最大値)−(データの最小値)
  2. (標本)平均偏差:平均値からのずれ(偏差)の絶対値の平均

    $\displaystyle d=\frac{1}{n}\sum_{i=1}^n \vert x_i - m(x)\vert$ (2)

  3. (標本)分散:偏差の2乗の平均

    $\displaystyle \sigma^2 (x) = \frac{1}{n} \sum_{i=1}^n \left\{ x_i - m(x) \right\}^2 =
 m(x^2) - m(x)^2$ (3)

  4. (標本)標準偏差:分散の平方根

    $\displaystyle \sigma (x) = \sqrt{\frac{1}{n}\sum_{i=1}^n\left\{ x_i - m(x)\right\}^2}$ (4)

  5. 変動係数:標準偏差を平均で割ったもの

    $\displaystyle v = \frac{\sigma (x)}{m(x)}$ (5)

範囲は結果の幅を表現しているので,値が小さいほどデータの ばらつきも小さくなると考えられる.しかし,偶然に,平均よりも かなり大きな値や平均よりもかなり小さな値がでたときに, その結果をひきずってしまう. 平均偏差(または標本平均偏差)は平均値からのずれの大きさの 平均なので,(範囲のようにふたつの特殊なデータに注目する のではなく)どのデータも等しい重みをおいてずれの程度を見ている という点でばらつきの程度を範囲よりはきちんと評価していると 言える.問題は絶対値を用いていることにある. 絶対値は計算結果の正負によって異なる取り扱いをしなければ ならないために,解析的に操作しにくい. 分散(または標本分散)は平均偏差が持つ絶対値の取り扱いの繁雑さを避けるために 平均からのずれを自乗した量を用いている.これによって場合分け 計算を取り扱う繁雑さは無くなったもののバラツキの程度の 示す量として,元データの単位とは異なる量を用いることになる (たとえば,元データが cm であった場合には,分散の値は cm$ ^2$ となる). 標準偏差(または標本標準偏差)は分散の平方根をとることで, ばらつきの指標を元データと同じ単位にしている. 分散と同じくらい頻繁に使われる量ではあるが,平方根を用いるので 取り扱いが多少繁雑になる. 変動係数は標準偏差を平均値で割ることで,ばらつきの度合を 無次元で表現している.

2変数の場合

次に,同時に計測できる二つの量 ($ x$, $ y$) を観測した ($ x_1$, $ y_1$), ($ x_2$, $ y_2$), $ \cdots$, ($ x_n$) というデータの 組を考える. このときに問題になるのは,二つの量がどのような関係にあるかである.

回帰直線

得られたデータの組を $ y=a+bx$ に当てはめることを考える. 最小自乗法によると,このとき,係数 $ a$$ b$ は,

$\displaystyle a=\frac{(\sum y)(\sum x^2)-(\sum x)(\sum xy)}{n(\sum x^2)-(\sum x)^2}$ (6)

$\displaystyle b=\frac{n(\sum xy)-(\sum x)(\sum y)}{n(\sum x^2)-(\sum x)^2}$ (7)

である. 最小自乗法は実測値と推定値との間のずれを残差平方和(least mean square)であるとし,この「ずれ」が最も少ないパラメータの値を 最適値とする手法である. 上記の実測値に対して,推定される曲線を $ y=f(x; a, b, c, \dots)$ $ a, b, c, \dots$ はパラメータ)とおくと,残差平方和は,

$\displaystyle S=\sum_{i=1}^n \left\{y_i - f(x_i; a, b,c, \dots)\right\}^2$ (8)

となり,最適なパラメータを得るための方程式は,
$\displaystyle \frac{\partial S}{\partial a}$ $\displaystyle =$ $\displaystyle 0,$  
$\displaystyle \frac{\partial S}{\partial b}$ $\displaystyle =$ $\displaystyle 0,$  
$\displaystyle \frac{\partial S}{\partial c}$ $\displaystyle =$ $\displaystyle 0,$  
  $\displaystyle \vdots$   (9)

となる. なぜ残差平方和を最小にするパラメータが良いパラメータなのかは 考察してみる価値があるが,これは後の「対数尤度」までの課題と しておこうと思う. 前述の直線に近似する場合の式は
$\displaystyle \frac{\partial }{\partial a}\left( \sum_{i=1}^{n}\{y_i-(a+bx_i)\}\right)$ $\displaystyle =$ $\displaystyle 0,$  
$\displaystyle \frac{\partial }{\partial b}\left( \sum_{i=1}^{n}\{y_i-(a+bx_i)\}\right)$ $\displaystyle =$ $\displaystyle 0,$  

$ a$$ b$ について解くことで得られる. 一度自分で導出することをお勧めする.

相関係数

簡単に言えば $ n$ 次元空間にある二つの単位ベクトルの内積を 求める作業である.
$\displaystyle r$ $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^n \left[ \frac{x_i - m(x)}{\sigma (x)}\right]
\left[ \frac{y_i - m(y)}{\sigma(y)}\right]$ (10)
  $\displaystyle =$ $\displaystyle \frac{m(xy)-m(x)m(y)}{\sqrt{\sigma (x)^2 \sigma (y)^2}}$ (11)

Takashi Yoshino
平成17年4月8日