流れで理解する正規分布とt分布・χ^2分布のつながり(区間推定を例に)

流れで理解する正規分布とt分布・χ^2分布のつながり(区間推定を例に)

統計学の主な目的に「推定(点推定・区間推定)」と「検定」があります。

ここでは正規分布に従う母集団から得られたサンプルから、母数(母平均と母分散)がどのような値を取るのか推定することを目標に、正規分布、t分布、χ^2分布がどういったものなのかを流れとともに学んでいきましょう。流れを追う事ですっきりと理解できることだと思います。それではやっていきましょう。

 

 

正規分布とは、分布とは何なのか

統計を勉強していたらよく出てくる正規分布ですが、

 

$$平均\mu , 分散\sigma^2 の正規分布 ~N(\mu, \sigma)は$$

$$ f(x;\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp{(-\frac{(x-\mu)^2}{2\sigma^2})}$$

 

と表されるのでした。

 

ここでは正規分布とは何か、それから正規分布のような確率分布とは何なのかをしっかりと理解していきましょう。

 

 

まず正規分布のみならず、あらゆる分布をしっかりと理解するために大事なことは

「分布というものが最初からあり、それに従って事象が起こっている」というのではなく

「サンプルから何かしらを調べていた結果、分布が見つかった」という認識です。

 

世に出ている統計学の本を読むと、例えば「t分布の定義がいきなりあってその式を元に期待値なり信頼区間なり計算する」といった流れになっていることがほとんどで「分布というものが最初からある」と誤解してしまいがちです。

 

現実に起こる確率的現象はどのような確率分布に従うかなんてまず分かりません、しかしサンプルを沢山とって調べていくとある分布に従うであろうことが結果として分かったわけです。さらに言うとある分布に従うであろうといったように、それはあくまでサンプルから得た推測に過ぎず現実とは必ずしも一致はしません。「現実のよくわからない確率的現象を調べると、それに上手く当てはまる数理モデルが見つかった。それが分布」です(つまり統計学は現実を数理モデルで仮想化しています。それ故に正しいか正しくないかという言葉がでてきません。仮説検定も受け入れる、受け入れないなどと言いますよね。)まずはこの認識を持って頂くと良いです。

 

そして世の中にある無数の確率的現象を調べていくと、多くの現象がある一つの分布に従うと見てよいという事がわかりました。それが正規分布です。つまり多くの現象が正規分布に属すると見てよいということがわかったのです。ですから、多くの場面で正規分布が仮定されて使われているということになります。

 

正規分布の重要な性質

正規分布には非常に重要な性質が三つあります。まずはこれを確認しておきましょう。

 

$$(i)\hspace{1cm} X \sim N(\mu, \sigma^2)のとき、\frac{X-\mu}{\sigma} \sim N(0,1) $$

$$(ii)\hspace{0.7cm}  X_{1}, …, X_{n} が独立にN(\mu, \sigma^2)に従うとき、\overline{X} = \frac{X_{1}+…+X_{n}}{n} \sim N(\mu,\frac{\sigma^2}{n}) $$

$$(iii) \hspace{0.4cm} (i),(ii)よりZ = \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) $$

 

証明は簡単な変数変換なので割愛します。

 

ここで大事なのは2点です。

・平均で引いて標準偏差で割る標準化によって平均0、分散1の正規分布に変換できること

・標本平均は平均がそのままで、分散がn分の1倍の正規分布に従うこと

です。

 

一つ目はどんな平均、分散に従う正規分布であっても必ず平均0分散1の正規分布に変換できることを意味し、区間推定や検定で上側100α%点の値を求めるために使う数表が一つで済むという利便性があるので重要です。

 

二つ目は後程掘り下げます。

 

$$それでは以上のことを頭に入れて、正規分布とt分布、\chi^2分布のつながりを徐々にみていきましょう。$$

そのために次の話題を扱います。

 

 

正規分布に従う現象において母集団の平均と分散を知りたい

 

例えば工場で作られる鉄製品の重さを測るとそれぞれバラつきがあるとします。そしてそのデータをヒストグラムで表すとほぼ正規分布のようになる事がわかったとしましょう。つまり鉄製品の重さは正規分布に従うと仮定します。そこで、重さのバラつき度合いがどれくらい大きいのか(分散の大きさ)、平均的な重さはいくらなのかを母集団全体に対して知る事が出来ると、(母集団全体に対する分散を母分散、平均を母平均と呼びます。)母分散が大きかったらその工場の機械は精度が悪いから改良が必要だと判断できたり、母平均このぐらいの重さにしたいといったような要望があっても改良を考えることができます。

 

しかし、母平均と母分散を果たして我々が知る事ができるのでしょうか。工場の例で続けると、生産を始める前から生産される製品の重さの平均と分散が分かっているものでしょうか。(いくらコンピュータで生産していても様々な条件下から必ず誤差がでてしまいます。その誤差を予測できるでしょうか。)

 

想定される通り、母平均と母分散が最初から分かっているということは基本的にはありません。ですから母平均と母分散をどうにかして知りたいわけです。ですのでこれから「母平均と母分散を推定すること。ここでは特に区間推定を行うこと」を考えていきます。(以下推定という言葉は区間推定を意味します。)

 

先ほど「母平均と母分散が最初から分かっているということは基本的にはない」と言いましたが、ここでは試験的に、母平均を推定するとき最初から母分散だけ分かっている状況、母分散を推定する時に最初から母平均だけは分かっているという状況も加えて考えてみることにします。少しややこしいので整理しておきます。

 

整理:正規分布に従うと仮定した母集団の母平均と母分散の区間推定における場合分け(4通り)

 

$$①母分散\sigma^2が既知で、母平均\muを推定する$$

$$②母平均\muが既知で、母分散\sigma^2を推定する$$

$$③母平均\muが未知で、母分散\sigma^2を推定する$$

$$④母分散\sigma^2が未知で、母平均\muを推定する$$

 

推定するものの順序がバラバラで気持ち悪いと感じることでしょうが、この順の方が後々理解が容易となるのでこのようにしています。それでは順にみていきましょう。

 

 

①母分散が既知で、母平均を推定する。

 

区間推定の基本的な考え方は皆さんご存知のものとして進めます。

まず母平均の区間推定を行うにあたり必要となるのは「標本平均」です。

 

標本平均は、得られたサンプルから容易に計算することができます。

例えば工場から100個鉄製品を生産したとしたら、その重さの平均を取ればよいだけです。

これらを確率変数を用いた式で表せば、

 

$$各鉄製品の重さがそれぞれ確率変数X_{1}, …, X_{n} に該当し、$$

$$標本平均は \overline{X} = \frac{X_{1}+…+X_{n}}{n}   となります。(工場の例ではn=100) $$

 

次に標本平均が従う分布を再度確認しましょう。正規分布の重要性質(ii)です。

 

$$ \overline{X} = \frac{X_{1}+…+X_{n}}{n} \sim N(\mu,\frac{\sigma^2}{n}) $$

 

同じ正規分布なら標本平均でなくても、各重さを元に推定できるんじゃないかと思うかもしれませんが、

$$各重さだとN(μ,σ^2)ですが、標本平均だとN(\mu,\frac{\sigma^2}{n})で母分散が異なります。$$

nを大きくすればするほど母分散が小さくなり、バラつきが小さくより平均に近い値を取ることになるので、標本平均で考えた方が推定の精度が上がるというわけですね。

 

そして区間推定を行うには標準化を行います。正規分布の重要性質(iii)でした。

 

$$Z = \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) $$

 

母分散σ^2は既知であるという前提ですので、未知数は母平均のμのみであり、95%信頼区間を求められます。上側2.5%点を数表から求めますがここでは簡易的にz(0.025)と置くと以下のような不等式が得られますので

 

$$ -z(0.025) \leq  \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \leq z(0.025) $$

 

これを未知数であり、推定したいμについて解くことで

 

$$ \overline{X}-\sqrt{\frac{\sigma^2}{n}}z(0.025) \leq \mu \leq \overline{X}+ \sqrt{\frac{\sigma^2}{n}}z(0.025) $$

 

となるわけです。これで母分散が既知の場合は簡単に母平均μについて区間推定することができました。

 

 

②母平均が既知で、母分散を推定する

 

次に母平均が既知の状況で母分散の推定を考えてみましょう。

①で母平均を推定するのには標本平均を用いました。この感覚からいくと母分散を推定するのに標本分散を用いるのが自然な感覚と言えます。半分あたりといったところです。何故なら標本分散には不偏性という重要な性質がないため、通常は不偏分散を用いられることになるからです。しかし計算上では標本分散でも問題がありませんので、ここでは一旦標本分散を用いることにします。

 

標本分散をS^2と置くと、式は以下の通りです。

 

$$S^2 = \sum_{i=1}^{n} \frac{(X_{i} -\overline{X})^2}{n} $$

 

ここで今は母平均が分かっているので、標本平均ではなく正確な平均であるμを用いておくことにしてS’^2を新しく定義しましょう。

 

$$S’^2 = \sum_{i=1}^{n} \frac{(X_{i} – \mu )^2}{n}  $$ 

 

さて、ここからどうするかですが。一旦整理しておきましょう。

 

$$我々が今知っている分布は「各Xが正規分布に従うこと」そしてその標準化「\frac{X-\mu}{\sigma^2}が$$

$$標準正規分布に属すること」「標本平均も同様に正規分布に従う」ということだけです。$$

 

母分散を推定するために用意したS’^2はこのままでは分布が分からないので、これら知っている事を用いて何か新しい分布を導入しなければいけません

 

そこでS^2の分子に着目してみると、各々のXに関して標準正規分布に従う(X-μ)/σの分子の部分の二乗の形になっています。そこで上手く帳尻を合わせて、分母も合わせて標準正規分布の二乗の形を作ってやりましょう

 

$$S’^2にnをかけて\sigma^2で割ってみると、$$

 

$$\frac{n×S’^2}{\sigma^2} = \sum_{i=1}^{n} \frac{(X_{i} – \mu )^2}{\sigma^2} = \sum_{i=1}^{n} (\frac{X_{i} – \mu}{\sigma})^2$$ 

 

できましたね。これをきっちり言語化しておくと、

 

$$ X_{1},…, X_{n}の標準化したものをZ_{1},…,Z_{n}とおくと、$$

$$ \frac{n×S’^2}{\sigma^2} は 標準正規分布に属するZ^2_{1}, …, Z^2_{n}の和に、すなわち$$

$$ \frac{n×S’^2}{\sigma^2} = Z^2_{1} + … + Z^2_{n} となります。$$

 

こんなものの確率分布の式(確率密度関数の式)が求められるのでしょうか。

 

答えは、「求められます」

 

標準正規分布の確率密度関数の式は分かっているので、そのxを二乗にした確率密度関数は変数変換の計算によって求めることができます。そして、そのn個の和も変数変換によって求めることができます。(ここでは計算過程は省略します。)

 

正規分布の式をこのような二度の変数変換によって求めたこの分布を

 

$$自由度nの \chi^2 (カイ二乗)分布と呼び, その確率密度関数は f(x)=\frac{x^{{\frac{n}{2}}-1} \mathrm{e}^{-\frac{x}{2}}}{2^{\frac{n}{2}} \Gamma(\frac{n}{2})}で表されます。$$

 

ここでの自由度というのはnの数に相当します。

 

非常に複雑な式になってしまいましたがこの式は覚える必要はありませんので忘れてしまって大丈夫です。

(正規分布の時と同様で、区間推定の際この式を用いて計算することはありません。)

 

$$ \chi^2_{n} 分布の確率密度関数のグラフは次のようになっています。$$

 

nの数によって関数の形が変わるのが特徴的ですが、最も大事なのはこの横軸が負の値をもたないことです。分散が非負の数であることと共通していますね。(正規分布のままで母分散の推定ができない理由が実はこれでした。)

 

話が少しそれましたが、結論として標本分散を上手く変形した

 

$$ \frac{n×S’^2}{\sigma^2} が \chi^2_{n} 分布に従うことが分かりました。$$

 

推定したい母数が含まれた統計量とその分布が見つかったので、区間推定が行えます。

 

標準正規分布のときと同様に95%信頼区間を推定しましょう。自由度nで上側2.5%点となる値を$$\chi^2_{n}(0.025) $$とおくと、下側の2.5%点は$$\chi^2_{n}(1-0.025) = \chi^2_{n}(0.975)$$となるので、

 

$$\chi^2_{n}(0.975) \leq \frac{n×S’^2}{\sigma^2}  \leq  \chi^2_{n}(0.025)$$

 

となりこれをσ^2について解いてやることで

 

$$\frac{n×S’^2}{\chi^2_{n}(0.025)} \leq \sigma^2  \leq  \frac{n×S’^2}{\chi^2_{n}(0.975)}$$

 

と母分散の区間推定を行う事が出来ました。

 

ここで下側の2.5%点の求め方ですが、正規分布と違ってカイ二乗分布は左右対称の形をしていません。

下側の2.5%は言い換えると上側97.5%点なので、右端から上側97.5%点までが97.5%になるのと、その位置から右端から2.5%になる点までの範囲を取ることで95%の確率になる区間を求めています。

 

図にするとこんな感じですね。(左側が雑なのは目を瞑って下さい。)

 

ちなみに最初に標本分散でも計算上大丈夫と述べて標本分散で求めましたが、不偏分散で行うとどうなるかも見ておきましょう。不偏分散をU^2と置くと、

 

$$U^2 = \sum_{i=1}^{n} \frac{(X_{i} -\overline{X})^2}{n-1} ですが\overline{X}を\muで置き換えたものを新たに定義して$$

$$U’^2 = \sum_{i=1}^{n} \frac{(X_{i} – \mu )^2}{n-1} $$ 

とします。

 

これを標準正規分布の二乗の和の形にもっていくと

 

$$\frac{(n-1)×U’^2}{\sigma^2} = \sum_{i=1}^{n} \frac{(X_{i} – \mu )^2}{\sigma^2} = \sum_{i=1}^{n} (\frac{X_{i} – \mu}{\sigma})^2$$ 

 

となりますね。これが自由度nのカイ二乗分布に従うことになるので、結局nとn-1の見た目上の計算の違いだけということが分かったと思います。それでは次に行きましょう。

 

 

③母平均が未知で、母分散を推定する

 

②で母平均が分かっていない場合です。

今回は不偏分散を用いて計算を行っていきましょう。

 

 

母平均が分かっていないことで②のままでは明らかにダメな部分がでてきてしまいます。

 

$$U^2 = \sum_{i=1}^{n} \frac{(X_{i} -\overline{X})^2}{n-1} から$$

$$U’^2 = \sum_{i=1}^{n} \frac{(X_{i} – \mu )^2}{n-1}  $$ 

を新しく定義したところです。

 

この置き換えをせずにそのまま標本平均で”標準正規分布風”の形でこれまでと同様に変形してみますと、

 

$$\frac{(n-1)×U^2}{\sigma^2} = \sum_{i=1}^{n} \frac{(X_{i} – \overline{X} )^2}{\sigma^2} = \sum_{i=1}^{n} (\frac{X_{i} – \overline{X}}{\sigma})^2$$ 

となりますね。ここで疑問がでてきます。

 

$$母平均 \mu ではなく標本平均\overline{x}としたこの\frac{(n-1)×U^2}{\sigma^2}という統計量は$$

$$カイ二乗分布に従うのでしょうか?$$

 

正解は「従います」

 

$$これがカイ二乗分布\chi^2_{n-1}に従うことが導かれています。$$

 

(証明は長くなるので省略します。)

 

注意する点として標本平均の場合は自由度が1下がっています。

つまりサンプルの数がn個あった場合は自由度はn-1になっています。

 

以上のことから、母平均が分かっていようがいまいが、

自由度が1変わるだけで母分散の区間推定は行えるということです。

 

それでは母分散の区間推定をやっていきましょう。

 

不偏分散を求めて、標準正規分布風の二乗の和の形にします。

 

$$\frac{(n-1)×U^2}{\sigma^2} = \sum_{i=1}^{n} \frac{(X_{i} – \overline{X} )^2}{\sigma^2} = \sum_{i=1}^{n} (\frac{X_{i} – \overline{X}}{\sigma})^2$$ 

 

これが自由度n-1のカイ二乗分布に従うので、95%信頼区間を求めましょう。

 

 

$$\chi^2_{n-1}(0.975) \leq \frac{(n-1)×U^2}{\sigma^2}  \leq  \chi^2_{n-1}(0.025)$$

 

でσ^2について解くことで

 

$$\frac{(n-1)×U^2}{\chi^2_{n-1}(0.025)} \leq \sigma^2  \leq  \frac{(n-1)×U^2}{\chi^2_{n-1}(0.975)}$$

 

と95%信頼区間を求めることができ、区間推定を行うことができました。

 

今回は先ほどと違って標本分散を使わず最初から不偏分散で行ったのには理由があります。先ほど述べた不偏性を持つというのも大事ですが、それは計算上標本分散でも問題ありませんでした。しかし今回よく見ていただくと、不偏分散の分母n-1とカイ二乗分布の自由度n-1が共通しており分かり易くなっています。このために不偏分散を用いています。

 

 

では最後④を見ていきましょう。

 

④母分散が不明で、母平均を推定する

 

一旦カイ二乗分布の話から①でやった標本平均の話に頭を切り替えていただきましょう。

 

分散が既知の場合、標本平均は次のように標準化して

 

$$Z = \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1) $$

 

母平均の95%信頼区間を求めるのでした。

 

$$ \overline{X}-\sqrt{\frac{\sigma^2}{n}}z(0.025) \leq \mu \leq \overline{X}+ \sqrt{\frac{\sigma^2}{n}}z(0.025) $$

 

今回は分散が未知でσ^2が分からないので、このままでは推定ができません。

 

そこで母分散を区間推定する際に母平均未知のときは標本平均で行ったように、こちらでも同じように標準化において、母分散を不偏分散で置き換えてやりましょう。(母平均未知で母分散を推定したときと同様、もう標本分散は使わないことで進めます。)

 

真に標準化ではないので、ZではなくTという別の文字でおくことにします。

 

$$T = \frac{ \overline{X} – \mu }{ \sqrt{ \frac{U^2}{n}}} $$

 

こうなりますね。これもまた疑問が出てくるでしょう。

 

「このTは正規分布に従うのでしょうか?」

 

この流れでは意外な答えかもしれません。

正解は「従わない」です。

 

母分散を不偏分散で置き換えて”標準化風”の変形による統計量Tは正規分布には従いません。ただ母分散を不偏分散で置き換えただけなので「厳密には正規分布ではないが、かなり似たような分布の形にはなる」ということは分かっています。しかし分布の関数の形が特定できないのは困りましたね。

 

ここで少し歴史の話を。

 

このTという統計量は正規分布ではないが、正規分布に近い形をしている。それなら不偏分散はサンプルを沢山とればとるほど(nを大きくするほど)母分散に収束していくからサンプルを沢山とれば正規分布で近似できるだろう、と昔の人は考えました。実際その通りで「データの数が多いときは正規分布として扱ってよい」というようになりました。これで分布がわからなくても、データを沢山とれば問題ないという風になったわけですね。

 

しかしこれでは、どうしてもデータの数が少ないときには推定ができないままでした。

 

じゃあ実際データの数が少ないときの統計量Tの分布はどのような形としているのか。これをGosset(ゴセット)という人が調べて発見することに成功しました。つまりなんでt分布というものがあるのかと疑問に思っていた方がいらっしゃればその解答は「Gossetが発見した分布で、t分布という名前が付けられた」からになります。

 

t分布の名前に関して「スチューデントのt分布」という名前を目にすると思いますが、これはGossetがt分布の論文を出したときにスチューデントと名前を変えて論文を出したことに由来します。詳細が知りたい方は別途検索してみてください。

 

さて、サンプルの数が増えると正規分布のようになるといった通り、サンプルの数によって分布の形が変わります。つまりカイ二乗分布と同様に自由度があり、「自由度nのt分布」という言い方になります。

 

t分布の形をみておきましょう。

(画像引用:https://to-kei.net/distribution/t-distribution/t-distribution/)

 

非常に正規分布に似ていますね。自由度を上げていくとほぼ正規分布です。

 

t分布の確率密度関数ですが、カイ二乗分布同様に複雑な式になり、また覚える必要もないので割愛しておきます。

 

 

話を戻して、t分布の発見とともにサンプルがn個あるとき、統計量Tは自由度がn-1のt分布に従うということがわかりました。これをきちんと数学記号で書いておきましょう。また自由度が1だけ小さくなっている点に注意です。

 

$$T = \frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t_{n-1}$$

 

さてこれでサンプル数が小さいときでも区間推定ができるようになりました。

 

$$t分布は正規分布と同様で左右対称の形状なので、上側2.5\%点の数値をt_{n-1}(0.025)と置くと$$

 

$$ -t_{n-1}(0.025) \leq  \frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} \leq t_{n-1}(0.025) $$

 

 

これを推定したいμについて解くと

 

$$ \overline{X}-\sqrt{\frac{U^2}{n}}t_{n-1}(0.025) \leq \mu \leq \overline{X}+ \sqrt{\frac{U^2}{n}}t_{n-1}(0.025) $$

 

となり、95%信頼区間を求めることができ区間推定を行う事が出来ました。

 

 

さて、ではなぜこの母分散未知で母平均の推定を最後に持ってきたかをここで答えます。

T分布に従う統計量Tの式ですが、これは次のように変形できます。

 

$$T = \frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} $$

$$ = \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} × \sqrt{\frac{\sigma^2}{U^2}} $$

$$ = \frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} × \sqrt{\frac{1}{\frac{(n-1)U^2}{\sigma^2}}} × \sqrt{n-1}$$

 

これを塊でみてください、左から標準正規分布、分母にカイ二乗分布の1/2乗の形を作りました。

 

標準正規分布、カイ二乗分布の統計量をそれぞれをZとWという文字で置くと

$$ Z \sim N(0,1), W \sim \chi_{n-1} となります。$$

このn-1をmとおき、ZとWを用いて

$$T = \frac{Z \sqrt{m}}{W} $$

で表し直します。実はこれこそ、自由度mのt分布の定義になっています。

 

え?これが定義なの?という感じですが

 

統計学のどの本を見てもt分布の定義というのは

 

$$ 独立な確率変数Z,Wが Z \sim N(0,1), W \sim \chi_{m} に従うとする、このとき$$

$$T = \frac{Z \sqrt{m}}{W} は自由度mのスチューデントのt分布といい、この分布をt_{m}で表す$$

(引用元: 現代数理統計学の基礎 久保川達也著)

 

という風になっています。つまりt分布の定義にカイ二乗分布が含まれているので、先にカイ二乗分布を扱う母分散の推定をやったというわけでした。

 

以上、統計学で最も基本となる正規分布、カイ二乗分布、t分布を区間推定の話をもとに扱ってきました。数学的厳密性に欠けた記述をしている部分も一部ありますが、理解を重点において解説してみたのでご容赦ください。

雑記カテゴリの最新記事