本記事では、RStudioでのデータの読み込み方法や要素の指定方法について初心者向けに紹介します。
データの種類と構造
R言語では、データの種類やデータ構造に基づいてさまざまなデータを取り扱うことができます。
データの種類
- 数値データ (numeric data):実数や整数を含むデータです。
- 因子データ (factor data):データの因子を表すのに使用されます。例えば、性別(男性、女性)、学歴(高校、大学、大学院)など。
- 文字データ (character data):文字列を含むデータです。
# 数値データ
x <- 1.1
# 文字データ
x <- "ABC"
# 因子データ
x <- factor(c("男","女","その他"))
データの構造
スカラー
スカラーは、単一の値を持つ最も基本的なデータ型です。
次のように1つの値がスカラーです。
x <- 5
ベクトル
ベクトルは、同じデータ型の値を持つ一連の要素を格納するためのデータ構造です。
x <- c(1, 2, 3, 4, 5)
行列
行列は、2次元のデータ構造で、行と列を持ちます。
m <- matrix(data = 1:6, nrow = 2, ncol = 3)
データフレーム
データフレームは、異なるデータ型の列を持つ2次元のデータ構造です。
df <- data.frame(Name = c("Alice", "Bob"), Age = c(25, 30))
リスト
リストは、異なるデータ型の要素を含むことができるデータ構造です。
lst <- list(Name = "Alice", Age = 25, Scores = c(85, 90, 95))
データの要素の指定
Rでは、データ構造内の特定の要素を指定してアクセスすることができます。
以下に代表的な方法を紹介します。
ベクトルの要素指定
ベクトルの特定の要素にアクセスするには、インデックスを使用します。
ベクトル名[番号]のように指定します。
次の例では、ベクトルx
の2番目の要素にアクセスします。
x <- c(1, 2, 3, 4, 5)
x[2]
行列の要素指定
行列の特定の要素にアクセスするには、行と列のインデックスを使用します。
行列名[行番号, 列番号]のように指定します。
次の例では、行列m
の1行2列目の要素にアクセスします。
m <- matrix(data = 1:6, nrow = 2, ncol = 3)
m[1, 2]
データフレームの要素指定
データフレームの特定の要素にアクセスするには、列名と行インデックスを使用します。
次の例では、データフレームdf
の2行目の"Name"列の要素にアクセスします。
df <- data.frame(Name = c("Alice", "Bob"), Age = c(25, 30))
df$Name[2]
# または
df[2, "Name"]
データの読み込み
直接入力する方法
データフレームを直接入力する方法は以下の通りです。
データフレームは、data.frame(列の名前1 = ベクトル, 列の名前2 = ベクトル…)のように列の名前とベクトルを対応させて入力します。
df <- data.frame(Name = c("Alice", "Bob"), Age = c(25, 30))
パスを指定して読み込む方法
「パス」とは、使用するファイルなどが有る場所を示す文字列です。パソコンでは、フォルダ名の経路を示しています。
パスを指定して読み込む方法は以下の通りです。
df <- read.csv("path/to/your/file.csv")
パスがわからない場合は、RStudioの右下ペイン「ファイルタブ」から目的のファイルの場所へ進み、ペインのメニューバーから「More」→「Copy Folder Path to Clipboard」の順でクリックするとパスをコピーできます。
(ファイル名はコピーされないので、パスの後ろにファイル名を足してください。)
拡張子(.csv)をつけ忘れたり、パスをダブルクォテーション(" ")で囲い忘れるとエラーになるので注意してください。
ファイル選択画面から読み込む方法
ファイル選択ダイアログを使用してCSVファイルを読み込む方法は以下の通りです。
df <- read.csv(file.choose())
この方法では、簡単にファイルを選択できますが、ファイル選択の過程がスクリプトに残らないので、再現性を保つという観点からはあまりおすすめできない方法です。
まとめ
本記事では、RStudioにおける基本的なデータの種類や、それぞれのデータ構造の要素指定方法、データの読み込み方法について紹介しました。
この記事が少しでもお役に立てたら嬉しいです。