R講座：基本統計量の計算

研究室に配属されたばかりの新入生や、これからRで統計分析を始めたいと思っている方へ向けて、【R講座】では、RとRStudioの基本的な使い方から統計手法の選び方、基本的なデータ分析方法までを解説しています。

特にRが初めての方でも安心して学べるように、難しいコマンドやコードは少なめで、RStudioのクリック操作を中心に進めていくので、プログラミングの経験がなくても大丈夫です。

実際のコードを交えながら進めるので、これからの研究やデータ分析に、ぜひ役立ててください！

この記事では、基本統計量の計算について解説しています。平均値や中央値から分散や標準偏差・標準誤差の計算方法まで紹介します。サンプルコードも併せて紹介するので、実際にRを使って計算してみてください。

代表値

代表値とは、データの中心的な傾向を示す値のことです。ここでは、平均値と中央値について説明します。

平均値はデータの総和をデータの数で割った値です。Rでは、mean()関数を使って計算します。データに欠損値が含まれている場合は、na.rm引数をTRUEに設定すると無視できます。また、外れ値を考慮してトリム平均を計算することもできます。

# データの平均値を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
mean(data, na.rm = TRUE) # NAを無視して計算
mean(data, trim = 0.1, na.rm = TRUE) # 10%のトリム平均

# 結果
[1] 3
[1] 3

中央値はデータを小さい順に並べたときの中央の値です。Rでは、median()関数を使って計算します。

# データの中央値を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
median(data, na.rm = TRUE) # NAを無視して計算

# 結果
[1] 3

分散はデータのばらつきを示す指標です。データの各値が平均値からどれだけ離れているかを表します。Rでは、var()関数を使って計算します。

# サンプルデータ
data <- c(1, 2, 3, 4, 5, NA)

# データの標準偏差を計算
var(data, na.rm = TRUE) # NAを無視して計算

標準偏差は分散の平方根で、データのばらつきを示します。Rでは、sd()関数を使って計算します。

# サンプルデータ
data <- c(1, 2, 3, 4, 5, NA)

# データの標準偏差を計算
sd(data, na.rm = TRUE) # NAを無視して計算

# 結果
[1] 1.581139

標準誤差は標本の平均が母集団の平均からどれだけ離れているかを示す指標です。標準誤差は標準偏差を標本数の平方根で割った値です。

# サンプルデータ
data <- c(1, 2, 3, 4, 5, NA) 

# データの標準誤差を計算
sd(data, na.rm = TRUE) / sqrt(sum(!is.na(data))) # NAを無視して計算

# 結果
[1] 0.7071068

Rでは標準誤差の関数が標準で入っていませんが、function( )関数を使うことで、新たに関数を定義することができます。何度も計算する場合は、関数を定義することで簡単に計算できます。

次のコードでは、オブジェクトseに標準誤差を計算する関数を定義しています。

# 標準誤差の関数を定義
se <- function(x) sd(x, na.rm = TRUE)/sqrt(sum(!is.na(x)))

# サンプルデータ
data <- c(1, 2, 3, 4, 5) # サンプルデータ

# データの標準誤差を計算
se(data)

# 結果
[1] 0.7071068

標準偏差：データのばらつきを表すパラメーター

標準誤差：推定量のばらつき（=精度、信頼性）

この記事は基本統計量の計算について解説しました。

次回は統計検定の選び方について紹介します。

この記事が少しでもお役に立てたら嬉しいです。