【R講座】ピアソンの相関係数の解析方法と実践

R

この記事では、ピアソンの相関係数について紹介しています。

ピアソンの相関係数とは

ピアソンの相関係数は、2つの連続変数間の線形関係の強さと方向を測る統計量です。

前提条件

ピアソンの相関係数を計算する際には以下の条件を確認します。

  • 正規性:両変数が正規分布に従うこと。
  • データ尺度:間隔尺度または比率尺度であること。

仮説の設定

相関係数の検定では、以下の仮説を設定します:

  • 帰無仮説(H0:母集団の相関係数は0である(相関がない)
  • 対立仮説(H1:母集団の相関係数は0ではない(相関がある)

Rでピアソンの相関係数を計算する

関数と引数オプション

Rで相関係数を計算するには、cor.test()関数を使用します。

## ベクトルを使う方法
cor.test(x, y,
         alternative = c("two.sided", "less", "greater"),
         method = c("pearson", "kendall", "spearman"),
         exact = NULL, conf.level = 0.95, continuity = FALSE, ...)

## データフレームを使う方法
cor.test(formula, data, subset, na.action, ...)
  • x, y: データ値の数値ベクトル。xyは同じ長さである必要があります。
  • alternative: 対立仮説を指定し、"two.sided"(両側検定)、"greater"(正の相関)、"less"(負の相関)のいずれかを選択。頭文字のみでも指定可能。
  • method: 使用する相関係数の種類を指定する文字列。"pearson"、"kendall"、"spearman"のいずれかを選択。省略形も可。
  • exact: 正確なp値を計算するかどうかを指定する論理値。KendallのτとSpearmanのρに使用。デフォルト(NULL)の意味は'Details'セクションを参照。
  • conf.level: 返される信頼区間の信頼水準。現在はPearsonの積率相関係数で、少なくとも4組の完全な観測対がある場合にのみ使用。
  • continuity: 論理値。TRUEの場合、KendallのτとSpearmanのρで正確に計算されない場合に連続性補正を使用。
  • formula: ~ u + v形式の式。uvはそれぞれのサンプルのデータ値を与える数値変数。サンプルは同じ長さである必要がある。
  • data: オプションの行列またはデータフレーム(または類似のもの)で、formulaで指定された変数を含む。デフォルトでは変数はenvironment(formula)から取得。
  • subset: 使用する観測値のサブセットを指定するオプションのベクトル。
  • na.action: データにNAが含まれる場合の処理方法を指定する関数。デフォルトはgetOption("na.action")

コード例と結果の見方

例として、植物の草丈と日照時間の関係を調べてみます。

# サンプルデータの作成
data <- data.frame(草丈 <- c(10, 15, 20, 25, 30, 35, 40, 45, 50, 55),
                   日照時間 <- c(2, 3, 4, 5, 6, 7, 8, 9, 10, 11))

# ピアソンの相関係数の計算
cor.test(草丈, 日照時間, method = "pearson")
        Pearson's product-moment correlation

data:  草丈 and 日照時間
t = Inf, df = 8, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 1 1
sample estimates:
      cor 
1 

この結果のから、相関係数(cor)が1で強い相関関係があります。また、p値が2.2e-16で、0.05より十分に小さいため、相関が統計的に有意であると判断できます。


この記事ではピアソンの相関係数について紹介しました。

次回はスピアマンの順位相関係数について紹介します。

この記事が少しでもお役に立てたら嬉しいです。

タイトルとURLをコピーしました