相関係数と単回帰分析:
統計初心者のための徹底解説
似ているようで異なる二つの概念を、計算式から決定係数までわかりやすく解説します。
相関係数と単回帰分析は、いずれも2つの変数間の関係性を分析する統計手法ですが、その目的、概念、計算方法において決定的な違いがあります。しかし、両者には密接な関連性もあり、特に決定係数(寄与率)が相関係数の2乗と一致するという点は、統計初心者が混乱しやすいポイントです。ここでは、これらの違いと関連性を整理して説明します。
相関係数と単回帰分析の概念の違い
相関係数 (Pearson's Correlation Coefficient, $r$)
- 目的: 2つの量的変数間の線形な関係の強さと方向を示す指標です。
- 範囲: $-1$ から $+1$ の間の値をとります。
- $+1$ に近いほど、正の線形関係が強い(一方が増えれば他方も増える)。
- $-1$ に近いほど、負の線形関係が強い(一方が増えれば他方は減る)。
- $0$ に近いほど、線形関係は弱い(または存在しない)。
- 役割: あくまで関係性の強さを示すものであり、一方の変数がもう一方の変数を予測するという目的はありません。どちらの変数が原因でどちらが結果、というような因果関係を示すものでもありません。
単回帰分析 (Simple Linear Regression)
- 目的: 1つの独立変数(説明変数、$X$)から、もう1つの従属変数(目的変数、$Y$)を予測するための線形モデルを構築することです。
- 役割: $X$ の値に基づいて $Y$ の値を推定・予測することを目的とします。具体的には、$Y = aX + b$ という直線(回帰直線)をデータに最もよくフィットするように求めます。ここで、$a$ は傾き(回帰係数)、$b$ は切片です。
- 因果関係: 回帰分析は因果関係を直接証明するものではありませんが、$X$ が $Y$ に影響を与えているという仮説に基づいて予測モデルを構築します。
計算方法の違い
相関係数 ($r$)
相関係数は、2つの変数の共変動(偏差積和)を、それぞれの変数の偏差平方和の積の平方根で割ることで計算されます。
$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$
ここで、
- $x_i, y_i$: 各データの値
- $\bar{x}, \bar{y}$: 各変数の平均値
- $n$: データ数
この式の分子 $\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ は、共変動(偏差積和)と呼ばれ、2つの変数が平均値からどれだけ一緒に動くかを示します。
一般に相関係数は共分散をXとYの標準偏差で割ったものと表現されますが、厳密には、共分散は共変動を自由度 $(n-1)$ で割ったものです。相関係数では分子(共分散)と分母(標準偏差)の両方に $(n-1)$ が共通して現れるため、約分されて省略されています。
$$\text{共分散}(X, Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n-1}$$
つまり、相関係数は、共分散をそれぞれの標準偏差の積で割ることで標準化された値と考えることもできます。その際に共分散、標準偏差の積、どちらの分母の $n-1$ は分子・分母で相殺されるため、上記のシンプルな形で表現されているだけです。この標準化により、相関係数は単位に依存しない $-1$ から $+1$ の範囲の値を取るようになります。
単回帰分析(回帰係数 $a$ と切片 $b$)
単回帰分析では、目的変数 $Y$ を説明変数 $X$ で予測する最適な直線 $Y = aX + b$ を求めます。この直線は、残差(実際の $Y$ の値と予測された $Y$ の値の差)の二乗和が最小になるように(最小二乗法)計算されます。
回帰係数 $a$(傾き)の計算:
$$a = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$
切片 $b$ の計算:
$$b = \bar{y} - a\bar{x}$$
ここで注目すべきは、回帰係数 $a$ の分子が相関係数の分子と同じ共変動(偏差積和)の形をしている点です。しかし、分母は相関係数とは異なり、$X$ の偏差平方和のみを用いています。回帰係数 $a$ は、$X$ が1単位変化したときに $Y$ が平均してどれだけ変化するかを示すため、その単位は $Y$ の単位を $X$ の単位で割ったものになります。
決定係数(寄与率)と相関係数の関係
決定係数(寄与率, $R^2$)
- 目的: 単回帰分析において、構築した回帰モデルが目的変数 $Y$ の変動をどの程度説明できているかを示す指標です。
- 範囲: $0$ から $1$ の間の値をとります。
- 意味: 例えば $R^2 = 0.75$ であれば、目的変数 $Y$ の全変動の75%が、回帰モデルによって説明できる(つまり、説明変数 $X$ によって説明できる)ことを意味します。残りの25%は、モデルに含まれない他の要因や誤差によって説明されると解釈されます。
決定係数 $R^2$ は、以下の式で表されます。
$$R^2 = \frac{\text{回帰平方和 (SSR)}}{\text{全変動 (SST)}} = \frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$$
ここで、
- $y_i$: 実際の $Y$ の値
- $\bar{y}$: $Y$ の平均値
- $\hat{y}_i$: 回帰モデルによって予測された $Y$ の値
相関係数の2乗との一致
単回帰分析の場合、この決定係数 $R^2$ は、相関係数 $r$ の2乗に厳密に一致します。つまり、$R^2 = r^2$ です。
この関係を示すために、相関係数 $r$ と回帰係数 $a$ の関係を考えます。
相関係数 $r$ は以下のように書けます。
$$r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$$
ここで、$\text{Cov}(X, Y)$ は共分散、$\sigma_X$ と $\sigma_Y$ はそれぞれ $X$ と $Y$ の標準偏差です。
回帰係数 $a$ は以下のように書けます。
$$a = \frac{\text{Cov}(X, Y)}{\sigma_X^2}$$
これらの式から、回帰係数 $a$ は相関係数 $r$ を用いて次のように表せます。
$$a = r \frac{\sigma_Y}{\sigma_X}$$
単回帰モデルにおける予測値 $\hat{y}_i$ は、$\hat{y}_i = a x_i + b$ であり、また $b = \bar{y} - a \bar{x}$ なので、
$$\hat{y}_i - \bar{y} = a x_i + b - \bar{y} = a x_i + (\bar{y} - a \bar{x}) - \bar{y} = a (x_i - \bar{x})$$
これを決定係数の式に代入すると、
$$R^2 = \frac{\sum_{i=1}^{n}(a(x_i - \bar{x}))^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} = \frac{a^2 \sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$$
ここで、$a = r \frac{\sigma_Y}{\sigma_X}$ を代入し、さらに標準偏差と偏差平方和の関係 $\left(\sum(x_i - \bar{x})^2 = (n-1)\sigma_X^2, \sum(y_i - \bar{y})^2 = (n-1)\sigma_Y^2\right)$ を利用すると、
$$R^2 = \left(r \frac{\sigma_Y}{\sigma_X}\right)^2 \frac{(n-1)\sigma_X^2}{(n-1)\sigma_Y^2} = r^2 \frac{\sigma_Y^2}{\sigma_X^2} \frac{\sigma_X^2}{\sigma_Y^2} = r^2$$
このように、数学的に決定係数 $R^2$ と相関係数 $r$ の2乗が一致することが示されます。
この関係は、両者の密接な関連性を示しています。
- 相関係数 $r$ は、2つの変数の線形関係の強さを直接的に表します。
- その2乗である決定係数 $R^2$ は、その強さが回帰モデルにおいて目的変数の変動をどれだけ説明できるかという「寄与」の度合いとして解釈できることを示唆しています。
例えば、あるデータで相関係数 $r = 0.8$ であったとします。このとき、決定係数 $R^2 = (0.8)^2 = 0.64$ となります。これは、「XとYの間には強い正の線形関係があり、XによってYの変動の64%を説明できる」と解釈できます。
まとめ
| 特徴 | 相関係数 ($r$) | 単回帰分析 |
|---|---|---|
| 概念 | 2変数の線形な関係の「強さ」と「方向」 | 1変数がもう1変数を「予測」するモデル |
| 目的 | 関係性の記述 | 予測、変動の説明 |
| 結果 | $-1$ から $+1$ の数値 | 回帰直線(傾きと切片) |
| 因果 | 直接示さない | 仮説に基づいた予測 |
| 指標 | 決定係数 ($R^2$) |
|---|---|
| 概念 | 回帰モデルが目的変数の変動をどの程度「説明できているか」 |
| 範囲 | $0$ から $1$ の数値 |
| 関係 | 相関係数 $r$ の2乗に一致 ($R^2 = r^2$) |
まとめ
相関係数は、2つの変数が「どれだけ一緒に動くか」を見るものです。計算式の分子にある「共変動」は、まさにその「一緒に動く量」を示しています。そして、共分散を計算する際に自由度 $(n-1)$ で割るのですが、相関係数では分子と分母の両方にこの $(n-1)$ が現れるため、最終的に式から消えてしまう、と考えると良いでしょう。
一方、単回帰分析は、「片方の動きからもう片方の動きを予測できるか」という、より応用的な側面を持つものです。そして、その予測の「うまさ」を示すのが決定係数ですが、それは「どれだけ一緒に動くか」を示す相関係数の強さを2乗した値と同じになる、と理解すると、これらの概念が整理され、混乱が少なくなるはずです。