心理統計法-記述統計 (1)

目次

1 はじめに

ここでは、間隔・比率尺度データの処理の仕方、統計データの表示について説明する。

2 データの表示

2.1 変数

データに含まれる対象者の情報を変数と言う。

2.1.1 変数の種類

2.1.1.1 質的変数

数値で表現できない変数を言う。

2.1.1.2 量的変数

体重、身長といった数値で表現さる変数を言う。

2.1.1.3 連続変数

途中で途切れることなく続く変数を連続変数と言う。

2.1.1.4 離散変数

数値がとびとびになる変数を離散変数と言う。

2.2 尺度水準

以下に示す4つの尺度水準がある。
尺度水準により適用できる数学的処理や統計手法が異なる。

2.2.1 名義尺度

性別、出身地、血液型など他と区別するためのラベリングの性質をもつ尺度水準。

2.2.2 順序尺度

順位、階級など上下関係の情報を含む尺度水準。

2.2.3 間隔尺度

個々の値が等間隔である尺度水準。

2.2.4 比率尺度

個々の値が等間隔であり、且つ、ゼロを基点とすることができる尺度水準。

2.2.5 ステーヴンスによる尺度水準

変数やその測定方法の性質から、変数を4つの水準に分ける方法。水準が低いものから名義尺度、順序尺度、間隔尺度、比率尺度の順になる。
各尺度の性質を下表にまとめる。

表1 尺度の性質と適用可能な尺度水準

尺度の性質 名義尺度 順序尺度 間隔尺度 比率尺度
ラベリング
上下関係 ×
等間隔の目盛り × ×
絶対的なゼロ点 × × ×

2.3 データリストの作成の仕方

条件を横、被験者を縦にしてデータを記入する。

表2 1人1条件の場合のデータリスト

条件1   条件2  
Name Score Name Score
A 5 J 28
E 23 K 34
C 18 G 61
F 30 I 46
B 31 D 48
H 34 J 51
I 37 M 43
K 42 L 45
N 23 O 32
S 26 T 39

上の例は条件が2つある場合、且つ、条件1と条件2で個人が異なる場合(1人1条件)のものをリスト化したものである。
また、1人複数条件の場合もある。その場合は以下の様な書き方になる。

表3 1人2条件の場合のデータリスト

  条件1 条件2
Name Score1 Score2
A 27 70
E 30 39
C 45 65
F 57 41
B 74 49

2.4 ヒストグラムの作成

ヒストグラムを作成することにより、データの分布や極端値の確認を行う。
極端値とは分布から大きく外れている値のこと。
ヒストグラムとは棒グラフのこと。

2.4.1 データの確認

ここでは、表2のデータを扱ってみる。データは、条件1: \([5,23,18,30,31,34,37,42,23,26]\) ,条件2: \([28,34,61,46,48,51,43,45,32,39]\) のそれぞれ10個のデータからなる。これを等間隔に区切ると、\([1-10,11-20,21-30,31-40,41-50,51-60,61-70,71-80,81-90,91-100]\) の様に分けられる。

表4 条件1のデータ個数とデータ範囲の確認

範囲 条件1のデータの数 条件2のデータ数
10 1 0
20 1 0
30 4 1
40 3 3
50 1 4
60 0 1
70 0 1
80 0 0
90 0 0
100 0 0
2.4.1.1 グラフの作成

上記表4より横軸をデータ範囲、縦軸をデータ個数すると、以下の様なグラフが描ける。

graph3.png

2.4.1.2 極端値の確認

上記グラフを見ると分布から大きく外れている値は,「120」の点で一つ存在していることがわかる。この値が不良値かどうかを確認することが必要。不良値であれば捨てる。

2.4.1.3 分布の確認

間隔・比率尺度の場合、多くはデータの分布が正規分布を示すことが多い。正規分布を示していれば、統計量(記述統計量)の計算として平均、標準偏差の計算を行う。

2.5 統計量の計算

統計量の計算は、平均(\(\bar{X}\))、標準偏差(\(SD\))を行う。
論文に掲載する際は、\(N\),\(\bar{X}\),\(SD\) の3つを掲載する。\(N\) は、データの個数。

2.5.1 代表値

代表値は「分布の中心」である。代表値としては、平均値、中央値、最頻値がある。
それぞれの求め方があるので、それについて以下に説明する。

2.5.2 平均

平均値は最もよく使われるが、順序尺度や名義尺度では使うことができない。また、平均から大きく離れた値の影響を受けやすい。
平均値は以下の式で求めることができる。

\begin{eqnarray*} & {平均 \bar{X}} = & \frac{{データ1}+{データ2}+{データ3}+・・・{データn}}{データ個数} \end{eqnarray*}

もう少し数学的に表現すると、以下の式で平均は表すことができる。

\begin{eqnarray*} & {平均 \bar{X}} = & \frac {1}{n} \sum_{i=1}^n{xi} \end{eqnarray*}

上の例で平均を求める。
条件1、条件2の平均値は、それぞれ \(条件1の \bar{X}=26.9\) \(条件2の \bar{X}=42.7\) となる。

2.5.3 中央値

中央値は昇順に並べたときに真ん中にくる値をいう。
上記の例では、データ個数は25個あり中央値は \(47\) になる。

2.5.4 最頻値

最頻値は頻繁に出現する値を言う。
上記の例では最頻値はない。

2.5.5 散布度

データがどの程度どのように分布しているかを数値によって表現する。
どの程度散らばっているかを表現するのに分散や標準偏差を使う。
また、散らばりを表現するのには歪度や尖度を使う。

2.5.6 分散

上の例で偏差を求める。
上の例で平均を求めて見る。
偏差の式は以下で表される。

\begin{eqnarray*} & {分散 {SD^2}} = & \frac{1}{n} \sum_{i=1}^n{(xi-\bar{X})^2} \end{eqnarray*}

実際に分散を計算するためには、以下の簡易式を用いるのが便利である。
以下は、上の例の計算結果を示す。

  • \(条件1のデータの個数:N=10\)
  • \(条件2のデータの個数: N=10\)
  • \(条件1の二乗和=8233\)
  • \(条件2の二乗和=19101\)
  • \(条件1の平均=26.9\)
  • \(条件2の平均=42.7\)
\begin{eqnarray*} & {分散 {SD^2}} = & {\frac{データの二乗和}{N}-\bar{X}^2} \end{eqnarray*}

上の式より条件1の分散を求める。

\begin{eqnarray*} & {分散 {SD^2}} = & {\frac{8233}{10}-26.9^2}=99.69 \end{eqnarray*}

2.5.7 標準偏差

データが平均からどの程度ズレているかを数値によって表現する。
標準偏差はデータ1個分の標準的なズレを表している。
データの分布が正規分布であれば、 \(平均±標準偏差\) の範囲にデータ全体の約68%が収まることになっている。

標準偏差の一般式は以下で表される。

\begin{eqnarray*} & {標準偏差 {SD}} = & \sqrt {\frac{1}{n} \sum_{i=1}^n{(xi-\bar{X})^2}} \end{eqnarray*}

以下は実際に使う簡易式。

\begin{eqnarray*} & {標準偏差 {SD}} = & \sqrt{{\frac{データの二乗和}{N}-\bar{X}^2}} \end{eqnarray*}

分散を \(\sqrt{}\) すれば標準偏差 \(SD\) が求まる。

これも上の例にならって条件1の \(SD\) を求めてみる。
\(SD=9.98\) となる。

2.6 データのまとめ方

項目 条件1 条件2
\(N\) 10 10
\(\bar{X}\) 26.9 42.7
\(SD\) 9.98 9.32

ビジュアル的に表現すると、以下のように表現できる。

graph4.png

文章で表現する場合は、 \(平均±SD\) という形で表現する。

3 参考文献

平井明代. (2012). 教育・心理系研究のための データ分析入門. 東京図書.

小野寺孝義. (2015). 心理・教育統計法特論 (放送大学大学院教材) (新訂). 放送大学教育振興会.

寛之小島. (2006). 完全独習 統計学入門. ダイヤモンド社.

著者: Satoshi Takemoto Satoshi Takemoto

Created: 2017-02-09 木 17:49

Emacs 25.1.1 (Org mode 8.3.6)

Validate