(1) 度数分布表とヒストグラム
度数分布表
データを階級ごとに集計した表を度数分布表といいます。また、度数分布表において、区切られた各区間を階級、区間の幅を階級幅、各階級に含まれる値の個数を度数、各階級の中央値を階級値といいます。
熊谷市の1950年から2023年までの8月の最高気温の度数分布表
階級 | 度数 |
41℃以上 42℃未満 | 0 |
40℃以上 41℃未満 | 1 |
39℃以上 40℃未満 | 4 |
38℃以上 39℃未満 | 12 |
37℃以上 38℃未満 | 15 |
36℃以上 37℃未満 | 16 |
35℃以上 36℃未満 | 16 |
34℃以上 35℃未満 | 9 |
33℃以上 34℃未満 | 0 |
32℃以上 33℃未満 | 1 |
31℃以上 32℃未満 | 0 |
30℃以上 31℃未満 | 0 |
スプレッドシートで度数を求めるときは、次のようにCOUNTIF関数またはCOUNTIFS関数を使います。
=COUNTIF(範囲, ">="&階級の下限値) - COUNTIF(範囲, ">"&階級の上限値)
=COUNTIFS(範囲, ">="&階級の下限値, 範囲, "<="&階級の上限値)
ヒストグラム
度数分布表を柱状のグラフであらわしたものをヒストグラムといいます。
階級幅について
階級幅を決めるときに、100点満点のテストなら階級幅は10点、30〜40℃の気温なら階級幅は1℃というように、キリのいい数字を使うと直感でわかりやすいヒストグラムを作成することができます。
しかし、キリのいい数字がわかりにくいようなデータの場合には、次のスタージェスの公式で求めた階級数が目安になるとされています。この公式では、データ数を$n$,階級数を$k$とすると、次のようになります。
\[k = 1 + \log_2n\]
(2) データの代表値と箱ひげ図
平均値(mean)
データの合計値を、データの個数で割った値を平均値といいます。
スプレッドシートで平均値を求めるときは、次のようにAVERAGE関数を使います。
最大値(max)・最小値(minimum)
データにおいて、最も大きい値を最大値、最も小さい値を最小値といいます。
スプレッドシートで最大値と最小値を求めるときは、次のようにMAX関数とMIN関数を使います。
最頻値(mode)
データにおいて、最も度数の多い値を、そのデータの最頻値といいます。
スプレッドシートで最頻値を求めるときは、次のようにMODE関数を使います。
中央値(median)
データを降順(または昇順)に並べたとき、中央に位置するデータを中央値といいます。なお、データの数が偶数の場合は、中央に近い2つの値の平均値を中央値とします。
スプレッドシートで中央値を求めるときは、次のようにMEDIAN関数を使います。
四分位数
データを降順(または昇順)に並べ、データの個数を4等分したとき、25%の区切りの値を第1四分位数 $Q_1$,50%区切りの値を第2四分位数 $Q_2$(=中央値),75%区切りの値を第3四分位数 $Q_3$といいます。なお、中央値と同様に四分位数が決まらない場合は、近い2つの値の平均値を四分位数とします。
スプレッドシートで四分位数を求めるときは、次のようにQUARTILE関数を使います。
第2引数の四分位数は0〜4の整数を次のように指定します。
- 四分位数に0を指定すると、データ内の最小値(0%)が返されます。
- 四分位数に1を指定すると、データ内の第1四分位数(25%)が返されます。
- 四分位数に2を指定すると、データ内の第2四分位数(50%)が返されます。
- 四分位数に3を指定すると、データ内の第3四分位数(75%)が返されます。
- 四分位数に4を指定すると、データ内の最大値(100%)が返されます。
四分位範囲
第1四分位数と第3四分位数の差を四分位範囲といいます。
箱ひげ図
四分位数や最大値・最小値を用いることで、データの散らばりを視覚的に表した図を箱ひげ図といいます。
(4) 例題
例題1
表1はある試験を行った結果である。これについて、次の各問いに答えよ。
(1) 度数分布表の作成
表1の点数について、表2に度数分布表を作成します。度数を求めるときは、次のCOUNTIF関数またはCOUNTIFS関数を使います。
=COUNTIF(範囲, ">="&階級の下限値) - COUNTIF(範囲, ">"&階級の上限値)
=COUNTIFS(範囲, ">="&階級の下限値, 範囲, "<="&階級の上限値)
(2) 最大値・最小値と四分位数
表1の点数について、表3に最大値・最小値・四分位数を求めます。最大値・最小値は、それぞれMAX関数やMIN関数を使っても求めることができますが、四分位数を求めるQUARTILE関数を使うことで、四分位数も含めて求めることができます。
第2引数の四分位数は0〜4の整数を次のように指定します。
- 四分位数に0を指定すると、データ内の最小値(0%)が返されます。
- 四分位数に1を指定すると、データ内の第1四分位数(25%)が返されます。
- 四分位数に2を指定すると、データ内の第2四分位数(50%)が返されます。
- 四分位数に3を指定すると、データ内の第3四分位数(75%)が返されます。
- 四分位数に4を指定すると、データ内の最大値(100%)が返されます。
(3) ヒストグラムの作成
❶表1の点数を選択した状態でメニューバーの❷挿入 > ❸グラフを選択します。
グラフエディタの❶設定から、❷グラフの種類を❸ヒストグラムにします。次に、グラフエディタの❹カスタマイズから、❺ヒストグラムを選択し、❻パケットサイズを10に変更します(パケットサイズは階級幅のことです)。また、❼横軸を選択し、❽最小値を0,❾最大値を100に変更します。
パケットサイズは階級幅、最小値と最大値は横軸の範囲を示します。
解答例