taka5hi’s blog

統計と機械学習の話題をメインに記事を書いています。

GLM(一般化線形モデル)で整理する回帰手法

GLM(一般化線形モデル)を使って、よく使われる線形回帰、ポアソン回帰、ロジスティック回帰の各手法をまとめてみました。
GLMを学ぶと、各回帰手法をGLMを使って統一的に説明するということがよく行われます。しかし、各回帰手法が指すものに微妙な揺れがあり、そのため初学者にとっては混乱を招くことがあります。(実際、私も非常に混乱しました)
この記事では、混乱するポイントも踏まえて、なるべくわかりやすくまとめてみたつもりです。

GLMを使った各回帰手法のまとめ

GLMを使うと、上で挙げた各回帰手法を、リンク関数、線形予測子、確率分布の違いとして統一的にまとめることができます。
「~回帰」といった場合、下記の表の手法を指すことが多いようです。

回帰手法 リンク関数 線形予測子 確率分布
線形回帰 恒等関数 (任意) 等分散正規分布
ポアソン回帰 対数関数 (任意) ポアソン分布
ロジスティック回帰 ロジット関数 (任意) ベルヌーイ分布/二項分布

以下では、それぞれの回帰手法について補足してゆきます。

線形回帰

説明変数 \(x\)、目的変数 \(y\) に対して \(y=\beta_0 + \beta_1 x\) のような関係を仮定した回帰手法を線形回帰といいます。\(\beta_0、\beta_1\) はこの回帰のパラメーターです。
右辺は、パラメーターの線形結合ならば何でもよいとされるそうです。(説明変数の線形結合ではないことに注意。例えば、\(y=\beta_0 + \beta_1 x + \beta_2 x^2\) などでもよい)
おそらく、広義にはこれが線形回帰の説明になります。しかし、パラメーターを最小二乗法で推定することもセットにして線形回帰ということも一般的なようです。

私は線形回帰を広義の意味で理解していたので、「線形回帰は、等分散正規分布を使ったGLMに等しい」というような記述見たときに大変混乱しました。
実際、このような記述は珍しくありません。もちろん間違いではないですが、下記のような記述の方がより正確でしょう。

  • 線形回帰では、一般的にパラメーターの推定は最小二乗法を使って行われることが多い。これは、確率分布に等分散正規分布を使ったGLMを最尤法を使って解くことに等しい。

ポアソン回帰

ポアソン回帰については、特に混乱を招くような手法の揺れは感じませんでした。
おおむね、リンク関数として対数関数、確率分布としてポアソン分布を使うGLMをポアソン回帰と理解して問題なさそうです。

ロジスティック回帰

ロジスティック回帰については、一般的に2値分類の手法として説明されることが多いです。
その場合は、リンク関数にロジット関数、確率分布にベルヌーイ分布を使ったGLMとなります。

ただし、上限があるような整数データの回帰手法として使われることもあります。
その場合は、リンク関数にロジット関数、確率分布に二項分布を使ったGLMとなります。(試行回数が1回の二項分布は、ベルヌーイ分布に等しい)

回帰手法の命名に関する補足

個人的に、各回帰手法で命名に関して対称性がないことも混乱する原因ではないかと思っています。

つまり、

  • 線形回帰は、リンク関数に恒等関数が使われる(確率分布のパラメーターが \(\beta_0 + \beta_1 x\) という線形結合で記述できる)ことに由来する名前
  • ポアソン回帰は、確率分布にポアソン分布を使っていることに由来する名前
  • ロジスティック回帰は、確率分布のパラメーター(二項分布の生起確率)が線形予測子のロジスティック関数になることに由来する名前

なので、ポアソン回帰とほかの2つで命名方法が違うのです。