【R講座】マンホイットニーのU検定

研究室に配属されたばかりの新入生や、これからRで統計分析を始めたいと思っている方へ向けて、【R講座】では、RとRStudioの基本的な使い方から統計手法の選び方、基本的なデータ分析方法を解説しています。特にRが初めての方でも安心して学べるように、RStudioのクリック操作も紹介していきます。実際のコード例を交えながら進めるので、これからの研究やデータ分析に、役立てていただけたら嬉しいです。

R講座の一覧

学生時代の自主ゼミノートを清書した、初心者向けR講座。隙間時間で学べる細かい内容で、RやRStudioの魅力を無理なく習得！

みなさん、こんにちは！

ここでは、この回で紹介したマンホイットニーのU検定について解説しています。

今回の内容

マンホイットニーのU検定の概要
マンホイットニーのU検定の方法
結果の見方

マンホイットニーのU検定とは
関数の構造と引数オプション
分析の実践
まとめ

マンホイットニーのU検定とは

マンホイットニーのU検定は、データの2つの独立したサンプルまたは1つのペアデータサンプルの中央値を比較するために使用されます。t検定のノンパラメトリック版として使われます。

前提条件

マンホイットニーのU検定を実施する際には以下の条件を確認します。

正規性：不要
等分散性：2つの群のデータが等分散であること。
群数：2群。
データ尺度：順序尺度または間隔尺度・比率尺度。

仮説の設定

マンホイットニーのU検定では次の仮説を設定します。

帰無仮説 (H₀)：両母集団の分布は同一である。
対立仮説 (H₁)：両母集団の分布は同一ではない。

マンホイットニーのU検定は、マンホイットニー・ウィルコクソン検定、ウィルコクソン順位和検定、またはウィルコクソンマン・ホイットニー検定とも呼ばれます。

関数の構造と引数オプション

RでマンホイットニーのU検定を行うには、wilcox.test()関数を使用します。

関数の構造

# ベクトルを使う方法 wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, tol.root = 1e-4, digits.rank = Inf, ...) # データフレームを使う方法 wilcox.test(formula, data, subset, na.action, ...)

引数オプション

x: 数値ベクトル。データの値を指定します。無限大や欠損値などの非有効値は省略されます。
y: オプションの数値ベクトル。xと同様にデータの値を指定します。無限大や欠損値などの非有効値は省略されます。
alternative: 対立仮説を指定する文字列。デフォルトは"two.sided"で、"greater"または"less"も指定できます。最初の文字だけでも指定可能です。
mu: 帰無仮説を形成するために使用されるオプションのパラメーターを指定する数値。詳細は後述。
paired: 対応のある検定を行うかどうかを示す論理値。
exact: 正確なp値を計算するかどうかを示す論理値。
correct: p値の正規近似に連続性補正を適用するかどうかを示す論理値。
conf.int: 信頼区間を計算するかどうかを示す論理値。
conf.level: 信頼区間の信頼水準を指定する数値。
tol.root: (conf.intがTRUEの場合) uniroot(*, tol=tol.root)呼び出しで使用される正の数値トレランス。
digits.rank: 数値。有限の場合、テスト統計量のランクを計算するためにrank(signif(r, digits.rank))が使用されます。デフォルトはrank(r)。
formula: lhs ~ rhsの形式の数式。lhsはデータ値を与える数値変数であり、rhsは1つのサンプルまたは対応のある検定の場合は1、または対応するグループを与える2レベルのファクター。
data: 数式内の変数を含むオプションのマトリックスまたはデータフレーム（または類似のもの）。デフォルトでは変数はenvironment(formula)から取得されます。
subset: 使用する観測値のサブセットを指定するオプションのベクトル。
na.action: データにNAが含まれている場合にどうするかを示す関数。デフォルトはgetOption("na.action")。
...: メソッドに渡す追加の引数。

簡単にまとめると、wilcox.test()関数では、次の2通りの方法を使えます。

ベクトル型の場合：wilcox.test(ベクトル1，ベクトル2)
フォーミュラ型の場合：wilcox.test(目的変数 ~ 説明変数)

分析の実践

次のステップでデータを分析していきます。

RでマンホイットニーのU検定の手順

STEP 1
データの読み込み

csvファイルからデータを読み込みます。
STEP 2
データの型変換（キャスト）

読み込んだデータの要因データを、Factor型に変更します。
STEP 3
マンホイットニーのU検定の実行

wilcox.test()関数でマンホイットニーのU検定を実行します。
STEP 4
結果の出力

計算された結果がコンソールペインに出力されます。

使用するデータ

この講座では、説明のために同じ CSV データを使い回しています。
実際には、データの性質（分布・尺度・サンプル数など）に合わせて、適切な統計検定を選びましょう。

csvファイル

R講座サンプルデータ1 ダウンロード

csvファイルの内容

このcsvファイルには次のデータが含まれています。

Temperature (°C)	Height (cm)	Weight (g)
25	9.881208	57.412763
25	10.197684	50.685115
25	8.931307	46.762492
25	9.196787	39.134970
25	8.886235	39.840711
25	11.580092	42.322098
25	11.497819	38.802799
25	10.262645	45.518258
25	8.767099	54.717364
25	9.996276	38.195093
30	16.511672	114.702570
30	14.524302	86.885794
30	15.797916	99.034751
30	14.025997	123.697199
30	15.689373	108.906265
30	14.044161	97.478168
30	13.768293	91.342362
30	14.043108	105.825860
30	14.130217	99.874707
30	14.089319	96.251452

データの読み込み

まずは、次のコードを使って、オブジェクト「data」にread.csv()関数でcsvファイルのデータを代入します。

# データの読み込み
data <- read.csv(file.choose(),
                 check.names = F)

データの前処理

次に、データの因子変換をします。

Rでは説明変数をFactor型のデータとします。今回の分析ではTemperature (°C)を説明変数とするので、as.factor()関数でデータ型をinteger型からFactor型に変更します。

# 説明変数をデータ型をFactor型に変更
data$`Temperature (°C)` <- as.factor(data$`Temperature (°C)`)

実行結果は、Environmentタブで確認できます。Temperature (°C)のデータ型がinteger型（左図）からFactor型（右図）に変わります。

バッククォート「`」について、少しだけ補足します。

R言語においてバッククォート「 ` 」で文字列を挟むと、通常は予約語や空白、特殊文字を含む名前を使うことができます。これにより、通常は無効な識別子として扱われる文字列を有効なオブジェクト名として扱うことができます。

ヘッダー名であるHeight (cm)は、スペース「　」や括弧「（）」が含まれているため、そのままオブジェクト名として使用できませんが、バッククォートを使うことでオブジェクト名として使用できます。

マンホイットニーのU検定

入力法方はフォーミュラ型で、目的変数はHeight (cm)のデータ、説明変数はTemperature (°C)としています。目的変数を変更すれば、Weight (g)のデータを検定できます。

# マンホイットニーのU検定の実行
wilcox.test(data$`Height (cm)` ~ data$`Temperature (°C)`)

Warning message:
In wilcox.test.default(group1, group2) : 
　cannot compute exact p-value with ties

という警告文が出る場合は、exactRankTestsパッケージのwilcox.exact関数を使うこともできます。

2024.07.10時点で、exactRankTestsは古いためcoinパッケージを使うようにメッセージが表示されるようです。また、coinパッケージのwilcox_testもエラーが発生しているようです。

Error in UseMethod("wilcox_test") · Issue #85 · kassambara/rstatix

I was using the this format for running wilcox_test() this morning and it was working: greed_wilcox % wilcox_test(match_...

rstatixパッケージが使えるようなので紹介します。

結果の見方

検定を実行した結果は、コンソールペインに表示されます。

	Wilcoxon rank sum exact test

data:  data$`Height (cm)` by data$`Temperature (°C)`
W = 0, p-value = 1.083e-05
alternative hypothesis: true location shift is not equal to 0

この結果から、p値が0.05より小さいため、2つのグループの中央値に有意な差があると判断することができます。

有意水準・p値・信頼区間

項目	説明
`有意水準 (α)`	帰無仮説を棄却する基準。通常 0.05（5%）や 0.01（1%）を使用する。例： α = 0.05なら、5%未満の確率で偶然起こる差を「有意」と判断する。
p値	検定統計量が観測された値以上になる確率。 p値 < 有意水準 (α) なら、統計的に有意と判断し、帰無仮説を棄却する。
統計的に有意とは？	「偶然の変動では説明できない差がある」と判断すること。ただし「実験的に重要」や「因果関係がある」とは限らない。
信頼区間 (Confidence Interval, CI)	母集団の真の値（2つのグループの平均値の差）が含まれる範囲を示す。例えば 95%信頼区間は、繰り返し実験したときに95%の確率で真の値(平均値の差)を含む。
信頼区間と有意性の関係	もし信頼区間がゼロ（または比較対象の値）を含まなければ、統計的に有意と判断できる。例：平均差の95%信頼区間が (0.5, 2.3) なら、有意水準5%で有意。
注意点	統計的有意でも「効果の大きさ（実用的な意味）」とは異なる。 p値が大きくても「差がない」とは言えない（サンプル数が少ない可能性）。

まとめ

マンホイットニーのU検定の概要
- ノンパラメトリック・等分散・2群
- 間隔・比例・順序尺度
マンホイットニーのU検定の方法
- ベクトル型の場合：wilcox.test(ベクトル1，ベクトル2)
- フォーミュラ型の場合：wilcox.test(目的変数 ~ 説明変数)
結果の見方
- 有意水準・p値・信頼区間から判断
- 統計的な意味と実用的な意味に注意