相関係数と単回帰分析:
統計初心者のための徹底解説

似ているようで異なる二つの概念を、計算式から決定係数までわかりやすく解説します。

相関係数単回帰分析は、いずれも2つの変数間の関係性を分析する統計手法ですが、その目的、概念、計算方法において決定的な違いがあります。しかし、両者には密接な関連性もあり、特に決定係数(寄与率)が相関係数の2乗と一致するという点は、統計初心者が混乱しやすいポイントです。ここでは、これらの違いと関連性を整理して説明します。


相関係数と単回帰分析の概念の違い

相関係数 (Pearson's Correlation Coefficient, $r$)

単回帰分析 (Simple Linear Regression)


計算方法の違い

相関係数 ($r$)

相関係数は、2つの変数の共変動(偏差積和)を、それぞれの変数の偏差平方和の積の平方根で割ることで計算されます。

$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$

ここで、

この式の分子 $\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ は、共変動(偏差積和)と呼ばれ、2つの変数が平均値からどれだけ一緒に動くかを示します。

一般に相関係数は共分散をXとYの標準偏差で割ったものと表現されますが、厳密には、共分散は共変動を自由度 $(n-1)$ で割ったものです。相関係数では分子(共分散)と分母(標準偏差)の両方に $(n-1)$ が共通して現れるため、約分されて省略されています。

$$\text{共分散}(X, Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n-1}$$

つまり、相関係数は、共分散をそれぞれの標準偏差の積で割ることで標準化された値と考えることもできます。その際に共分散、標準偏差の積、どちらの分母の $n-1$ は分子・分母で相殺されるため、上記のシンプルな形で表現されているだけです。この標準化により、相関係数は単位に依存しない $-1$ から $+1$ の範囲の値を取るようになります。

単回帰分析(回帰係数 $a$ と切片 $b$)

単回帰分析では、目的変数 $Y$ を説明変数 $X$ で予測する最適な直線 $Y = aX + b$ を求めます。この直線は、残差(実際の $Y$ の値と予測された $Y$ の値の差)の二乗和が最小になるように(最小二乗法)計算されます。

回帰係数 $a$(傾き)の計算:

$$a = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

切片 $b$ の計算:

$$b = \bar{y} - a\bar{x}$$

ここで注目すべきは、回帰係数 $a$ の分子が相関係数の分子と同じ共変動(偏差積和)の形をしている点です。しかし、分母は相関係数とは異なり、$X$ の偏差平方和のみを用いています。回帰係数 $a$ は、$X$ が1単位変化したときに $Y$ が平均してどれだけ変化するかを示すため、その単位は $Y$ の単位を $X$ の単位で割ったものになります。


決定係数(寄与率)と相関係数の関係

決定係数(寄与率, $R^2$)

決定係数 $R^2$ は、以下の式で表されます。

$$R^2 = \frac{\text{回帰平方和 (SSR)}}{\text{全変動 (SST)}} = \frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$$

ここで、

相関係数の2乗との一致

単回帰分析の場合、この決定係数 $R^2$ は、相関係数 $r$ の2乗に厳密に一致します。つまり、$R^2 = r^2$ です。

この関係を示すために、相関係数 $r$ と回帰係数 $a$ の関係を考えます。

相関係数 $r$ は以下のように書けます。

$$r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$$

ここで、$\text{Cov}(X, Y)$ は共分散、$\sigma_X$ と $\sigma_Y$ はそれぞれ $X$ と $Y$ の標準偏差です。

回帰係数 $a$ は以下のように書けます。

$$a = \frac{\text{Cov}(X, Y)}{\sigma_X^2}$$

これらの式から、回帰係数 $a$ は相関係数 $r$ を用いて次のように表せます。

$$a = r \frac{\sigma_Y}{\sigma_X}$$

単回帰モデルにおける予測値 $\hat{y}_i$ は、$\hat{y}_i = a x_i + b$ であり、また $b = \bar{y} - a \bar{x}$ なので、

$$\hat{y}_i - \bar{y} = a x_i + b - \bar{y} = a x_i + (\bar{y} - a \bar{x}) - \bar{y} = a (x_i - \bar{x})$$

これを決定係数の式に代入すると、

$$R^2 = \frac{\sum_{i=1}^{n}(a(x_i - \bar{x}))^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} = \frac{a^2 \sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$$

ここで、$a = r \frac{\sigma_Y}{\sigma_X}$ を代入し、さらに標準偏差と偏差平方和の関係 $\left(\sum(x_i - \bar{x})^2 = (n-1)\sigma_X^2, \sum(y_i - \bar{y})^2 = (n-1)\sigma_Y^2\right)$ を利用すると、

$$R^2 = \left(r \frac{\sigma_Y}{\sigma_X}\right)^2 \frac{(n-1)\sigma_X^2}{(n-1)\sigma_Y^2} = r^2 \frac{\sigma_Y^2}{\sigma_X^2} \frac{\sigma_X^2}{\sigma_Y^2} = r^2$$

このように、数学的に決定係数 $R^2$ と相関係数 $r$ の2乗が一致することが示されます。

この関係は、両者の密接な関連性を示しています。

例えば、あるデータで相関係数 $r = 0.8$ であったとします。このとき、決定係数 $R^2 = (0.8)^2 = 0.64$ となります。これは、「XとYの間には強い正の線形関係があり、XによってYの変動の64%を説明できる」と解釈できます。


まとめ

特徴 相関係数 ($r$) 単回帰分析
概念 2変数の線形な関係の「強さ」と「方向」 1変数がもう1変数を「予測」するモデル
目的 関係性の記述 予測、変動の説明
結果 $-1$ から $+1$ の数値 回帰直線(傾きと切片)
因果 直接示さない 仮説に基づいた予測
指標 決定係数 ($R^2$)
概念 回帰モデルが目的変数の変動をどの程度「説明できているか」
範囲 $0$ から $1$ の数値
関係 相関係数 $r$ の2乗に一致 ($R^2 = r^2$)

まとめ

相関係数は、2つの変数が「どれだけ一緒に動くか」を見るものです。計算式の分子にある「共変動」は、まさにその「一緒に動く量」を示しています。そして、共分散を計算する際に自由度 $(n-1)$ で割るのですが、相関係数では分子と分母の両方にこの $(n-1)$ が現れるため、最終的に式から消えてしまう、と考えると良いでしょう。

一方、単回帰分析は、「片方の動きからもう片方の動きを予測できるか」という、より応用的な側面を持つものです。そして、その予測の「うまさ」を示すのが決定係数ですが、それは「どれだけ一緒に動くか」を示す相関係数の強さを2乗した値と同じになる、と理解すると、これらの概念が整理され、混乱が少なくなるはずです。

統計記事一覧に戻る