Subsections
この副節では,主に,ある同一の事象を観測した結果として
得られた数値の組
( ,,, , )の性質を
いくつかの数値を用いて表現することについて考えていく.
これらの集まりは何種類の数値を用いて表すべきだろうか?
当然のことながら,データの個数分の数値を使えば,
この数字の集まりは完全に表現することができる.
しかし,それでは性質を抽出したことにはならない.
得られた結果の性質を表す量として,以下のような量が挙げられるだろう.
はじめに,得られた結果を全体の情報をひとつの数値として表す場合,どのような
ものが最適であるかを考えよう.良く用いられるのは,以下の3つの量である.
- 最頻値(モード):最大度数を与えるクラスの代表値.
- 中央値(メディアン):データを大きさの順に並べ変えた時の中央にある
値.
- 平均値:データの総和をデータ数で割った値.
平均値()は
|
(1) |
で計算される.
おそらく平均値が最もポピュラーな代表値の決定方法だろう.
平均値を代表値と仮定することの妥当性については,
後で議論することになる.
上記の3種類の値は,統計的に「タチが良い」データであれば同じような
値をとる.逆に,「タチが悪い」データであると異なった値をとり
どれを代表値とすれば良いかは一概には言えなくなる.
「タチが悪い」データの例としては,ピークがふたつあるような
分布を持つデータセットが挙げられる.
得られたデータをふたつの数値で表現することを考えよう.
ひとつめの数値としては,前述の「代表的な値」が選ばれるだろう.
ふたつめの数値としては,どのような値が考えられるだろうか?
ふたつめの数値としては「ばらつきの程度を示す量」を考えよう.
観測されるデータにはバラツキが伴われるのが普通なので,
平均値が同じであっても,その平均値が意味している値の
信頼度は異なることが考えられるからだ.
このような量には,以下のようなものがある.
- 範囲(レンジ):(データの最大値)−(データの最小値)
- (標本)平均偏差:平均値からのずれ(偏差)の絶対値の平均
|
(2) |
- (標本)分散:偏差の2乗の平均
|
(3) |
- (標本)標準偏差:分散の平方根
|
(4) |
- 変動係数:標準偏差を平均で割ったもの
|
(5) |
範囲は結果の幅を表現しているので,値が小さいほどデータの
ばらつきも小さくなると考えられる.しかし,偶然に,平均よりも
かなり大きな値や平均よりもかなり小さな値がでたときに,
その結果をひきずってしまう.
平均偏差(または標本平均偏差)は平均値からのずれの大きさの
平均なので,(範囲のようにふたつの特殊なデータに注目する
のではなく)どのデータも等しい重みをおいてずれの程度を見ている
という点でばらつきの程度を範囲よりはきちんと評価していると
言える.問題は絶対値を用いていることにある.
絶対値は計算結果の正負によって異なる取り扱いをしなければ
ならないために,解析的に操作しにくい.
分散(または標本分散)は平均偏差が持つ絶対値の取り扱いの繁雑さを避けるために
平均からのずれを自乗した量を用いている.これによって場合分け
計算を取り扱う繁雑さは無くなったもののバラツキの程度の
示す量として,元データの単位とは異なる量を用いることになる
(たとえば,元データが cm であった場合には,分散の値は cm となる).
標準偏差(または標本標準偏差)は分散の平方根をとることで,
ばらつきの指標を元データと同じ単位にしている.
分散と同じくらい頻繁に使われる量ではあるが,平方根を用いるので
取り扱いが多少繁雑になる.
変動係数は標準偏差を平均値で割ることで,ばらつきの度合を
無次元で表現している.
次に,同時に計測できる二つの量 (, ) を観測した
(, ), (, ), , () というデータの
組を考える.
このときに問題になるのは,二つの量がどのような関係にあるかである.
得られたデータの組を に当てはめることを考える.
最小自乗法によると,このとき,係数 と は,
|
(6) |
|
(7) |
である.
最小自乗法は実測値と推定値との間のずれを残差平方和(least mean
square)であるとし,この「ずれ」が最も少ないパラメータの値を
最適値とする手法である.
上記の実測値に対して,推定される曲線を
(
はパラメータ)とおくと,残差平方和は,
|
(8) |
となり,最適なパラメータを得るための方程式は,
となる.
なぜ残差平方和を最小にするパラメータが良いパラメータなのかは
考察してみる価値があるが,これは後の「対数尤度」までの課題と
しておこうと思う.
前述の直線に近似する場合の式は
を と について解くことで得られる.
一度自分で導出することをお勧めする.
簡単に言えば 次元空間にある二つの単位ベクトルの内積を
求める作業である.
Takashi Yoshino
平成17年4月8日