ガウス=マルコフの定理

統計学
回帰分析
モデル
  • 一般化線形モデル
  • 離散選択(英語版)
  • ロジスティック回帰
  • 多項ロジット(英語版)
  • 混合ロジット(英語版)
  • プロビット(英語版)
  • 多項プロビット(英語版)
  • 順序ロジット(英語版)
  • 順序プロビット(英語版)
  • ポアソン(英語版)
  • 非線形回帰
  • ノンパラメトリック(英語版)
  • セミパラメトリック(英語版)
  • ロバスト(英語版)
  • 分位点(英語版)
  • 等調(英語版)
  • 主成分(英語版)
  • 最小角度(英語版)
  • 局所
  • 折れ線(英語版)
  • 変数誤差(英語版)
推定
  • 普通(英語版)
  • 加重(英語版)
  • 一般化(英語版)
  • 最小絶対偏差(英語版)
  • 繰返し加重(英語版)
  • ベイズ(英語版)
  • ベイズ多変量(英語版)
背景

ガウス=マルコフの定理(ガウス=マルコフのていり)とは、あるパラメタを観測値の線形結合で推定するとき残差を最小にするように最小二乗法で求めた推定量が、最良線形不偏推定量になることを保証する定理である。カール・フリードリヒ・ガウスアンドレイ・マルコフによって示された。

線形回帰モデルと最小二乗推定量

線形回帰モデルとして目的変数 Yp 個の説明変数 Xi, i = 1, ..., p および誤差項 ε k {\displaystyle \varepsilon _{k}} の関係を以下のようにモデル化したものを考える。

Y k = β 0 + β 1 X 1 + β 2 X 2 + + β p X p + ε k ,   k = 1 , , n . {\displaystyle Y_{k}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon _{k},\ k=1,\dots ,n.}

目的変数と説明変数の測定結果の組 (yk; xk,1,...,xk,p) を1つのデータとし、n( ≥ p) 個のデータを用いて残差の平方和

k = 1 n { y i ( β 0 + β 1 x i , 1 + β 2 x i , 2 + + β p x i , p ) } 2 {\displaystyle \sum _{k=1}^{n}\left\{y_{i}-(\beta _{0}+\beta _{1}x_{i,1}+\beta _{2}x_{i,2}+\cdots +\beta _{p}x_{i,p})\right\}^{2}}

が最小になる ( β 0 , β 1 , , β p ) {\displaystyle (\beta _{0},\beta _{1},\cdots ,\beta _{p})} を最小二乗推定量と呼ぶ。ここで

Y = [ Y 1 Y 2 Y n ] ,   X = [ 1 x 11 x 12 x 1 p 1 x 21 x 22 x 2 p 1 x n 1 x n 2 x n p ] ,   β = [ β 0 β 1 β p ] ,   ε = [ ε 1 ε 2 ε n ] {\displaystyle \mathbf {Y} ={\begin{bmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{n}\end{bmatrix}},\ \mathbf {X} ={\begin{bmatrix}1&x_{11}&x_{12}&\dots &x_{1p}\\1&x_{21}&x_{22}&\dots &x_{2p}\\\vdots &\vdots &\vdots &&\vdots \\1&x_{n1}&x_{n2}&\dots &x_{np}\end{bmatrix}},\ {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{p}\end{bmatrix}},\ {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}}

と置くと線形回帰モデルは

Y = X β + ε {\displaystyle \mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}

とかけ、最小二乗推定量 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}}

β ^ = ( X X ) 1 X Y {\displaystyle {\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Y} }

で与えられる。なお、上付き添字 {\displaystyle \top } 転置行列を表す。

ガウス・マルコフの定理

仮定

誤差項 ε {\displaystyle {\boldsymbol {\varepsilon }}} について

  1. E [ ε ] = 0 {\displaystyle E[{\boldsymbol {\varepsilon }}]=0} (不偏性)
  2. Cov [ ε ] = σ 2 I {\displaystyle \operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\sigma ^{2}{\boldsymbol {I}}} (等分散性・無相関性)

を仮定する。ここで I {\displaystyle {\boldsymbol {I}}} は単位行列を表す。

無相関性は独立性よりも弱い仮定であり、また正規分布など特定の分布に従うことを仮定していない。

定理の内容

最小二乗推定量 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} は最良線形不偏推定量になる。つまり任意の線形不偏推定量 β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} に対して

Cov [ β ~ ] Cov [ β ^ ] {\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]}

が成立する。

証明

β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} は線形推定量なので ( p + 1 ) {\displaystyle (p+1)} n {\displaystyle n} 列の行列 C {\displaystyle \mathbf {C} } を用いて β ~ = C Y {\displaystyle {\widetilde {\boldsymbol {\beta }}}=\mathbf {C} \mathbf {Y} } とかける。 β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} が不偏性を持つための条件を求めると E [ β ~ ] = C X β = β {\displaystyle E[{\widetilde {\boldsymbol {\beta }}}]=\mathbf {C} \mathbf {X} {\boldsymbol {\beta }}={\boldsymbol {\beta }}} が恒等的に成立することから C X = I {\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} } である。

次に β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} の分散共分散行列を整理すると

Cov [ β ~ ] = E [ ( C Y β ) ( C Y β ) ] = E [ C ε ( C ε ) ] = C E [ ε ε ] C T = σ 2 C C {\displaystyle {\begin{alignedat}{2}\operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]&=E\left[(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})^{\top }\right]\\&=E\left[\mathbf {C} {\boldsymbol {\varepsilon }}(\mathbf {C} {\boldsymbol {\varepsilon }})^{\top }\right]\\&=\mathbf {C} E[{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }]\mathbf {C} ^{T}\\&=\sigma ^{2}\mathbf {C} \mathbf {C} ^{\top }\end{alignedat}}}

になる。ここで C ^ = ( X X ) 1 X {\displaystyle {\hat {\mathbf {C} }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }} とした時の推定量が最小二乗推定量 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} になるので C C C ^ C ^ {\displaystyle \mathbf {C} \mathbf {C} ^{\top }\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }} を示せばよい。不偏性より C X = I {\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} } なので

( C C ^ ) C ^ = ( C C ^ ) X ( X X ) 1 = ( C X C ^ X ) ( X X ) 1 = O {\displaystyle {\begin{alignedat}{2}(\mathbf {C} -{\hat {\mathbf {C} }}){\hat {\mathbf {C} }}^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }})\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=(\mathbf {C} \mathbf {X} -{\hat {\mathbf {C} }}\mathbf {X} )(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=\mathbf {O} \end{alignedat}}}

に注意すると

C C = ( C C ^ + C ^ ) ( C C ^ + C ^ ) = ( C C ^ ) ( C C ^ ) + C ^ C ^ C ^ C ^ {\displaystyle {\begin{alignedat}{2}\mathbf {C} \mathbf {C} ^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})^{\top }\\&=(\mathbf {C} -{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }})^{\top }+{\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\\&\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\end{alignedat}}}

が成立する。したがって

Cov [ β ~ ] Cov [ β ^ ] {\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]}

が成立し、最小二乗推定量 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} は最良線形不偏推定量になる。

関連項目

参考文献

  • “有意に無意味な話: ガウス・マルコフの定理:重回帰モデルでの証明”. 2020年8月13日閲覧。

外部リンク