この記事では、基本統計量の計算について解説しています。代表値から分散や標準偏差まで紹介します。
サンプルコードも併せて紹介するので、実際にRを使って計算してみてください。
代表値
代表値とは、データの中心的な傾向を示す値のことです。
ここでは、平均値と中央値について説明します。
平均値
平均値はデータの総和をデータの数で割った値です。Rでは、mean()
関数を使って計算します。データに欠損値が含まれている場合は、na.rm
引数をTRUE
に設定すると無視できます。また、外れ値を考慮してトリム平均を計算することもできます。
# データの平均値を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
mean(data, na.rm = TRUE) # NAを無視して計算
mean(data, trim = 0.1, na.rm = TRUE) # 10%のトリム平均
# 結果
[1] 3
[1] 3
中央値
中央値はデータを小さい順に並べたときの中央の値です。Rでは、median()
関数を使って計算します。
# データの中央値を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
median(data, na.rm = TRUE) # NAを無視して計算
# 結果
[1] 3
母集団と標本
母集団
母集団とは、調査や研究の対象となる全体の集まりのことです。
標本
標本は、母集団から抽出された一部のデータのことです。
標本を用いることで、母集団の特性を推測します。
標本数
標本数は、標本の抽出を行った回数(群数)のことです。
標本サイズ
標本サイズは各標本に含まれる個体数(n数)のことです。
分散と標準偏差・標準誤差
分散
分散はデータのばらつきを示す指標です。データの各値が平均値からどれだけ離れているかを表します。
標準偏差
標準偏差は分散の平方根で、データのばらつきを示します。Rでは、sd()
関数を使って計算します。
# データの標準偏差を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
sd(data, na.rm = TRUE) # NAを無視して計算
# 結果
[1] 1.581139
標準誤差
標準誤差は標本の平均が母集団の平均からどれだけ離れているかを示す指標です。標準誤差は標準偏差を標本数の平方根で割った値です。
# データの標準誤差を計算
data <- c(1, 2, 3, 4, 5, NA) # サンプルデータ
std_error <- sd(data, na.rm = TRUE) / sqrt(sum(!is.na(data))) # NAを無視して計算
std_error
# 結果
[1] 0.7071068
Rでは標準誤差の関数が標準で入っていませんが、function( )関数を使うことで、新たに関数を定義することができます。
次のコードでは、オブジェクトseに標準誤差を計算する関数を定義しています。
# 標準誤差の関数を定義
se <- function(x) sd(x, na.rm = TRUE)/sqrt(sum(!is.na(x)))
# データの標準誤差を計算
data <- c(1, 2, 3, 4, 5) # サンプルデータ
std_error <- se(data)
std_error
# 結果
[1] 0.7071068
この記事は基本統計量の計算について解説しました。
次回は統計検定の選び方について紹介します。
この記事が少しでもお役に立てたら嬉しいです。