(1) 分散と標準偏差

$n$個のデータ$x_1$,$x_2$,$x_3$,$\cdots$,$x_n$の平均値を$\bar{x}$とします。

偏差(deviation)

各データと平均値の差を偏差といいます。

$i$番目のデータ$x_i$の偏差は$x_i-\bar{x}$で表せます。

データのばらつきの度合いを表すのに、「偏差の平均値」を使いたいところですが、偏差には正の数もあれば負の数もあるので、平均すれば0(ゼロ)となり、データのばらつきの度合いを表すのには使えません。そこで、「偏差の2乗の平均値」とすることで、偏差が負の数の場合でも平均すれば0(ゼロ)とはならず、ばらつき度合いを表すことができます。

分散(variance)

データのばらつきの度合いを表す値を分散といいます。分散は、偏差の2乗の平均値です。分散$V$は次のように表すことができます。

\[ \begin{align*} V &= \frac{1}{n} \left\{ (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2 \right\} \\ \end{align*} \]

分散は元のデータの2乗なので、ばらつき度合いを表すことはできますが、各データが平均値からどれくらい離れているかを比較することはできません。そこで、分散の平方根を取って、データと比較できるようにしたので、次の標準偏差です。

標準偏差(SD: standard deviation)

分散の平方根をとった値を標準偏差といいます。標準偏差$\sigma$は次のように表すことができます。

\[ \begin{align*} \sigma &= \sqrt{V} = \sqrt{\frac{1}{n} \left\{ (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2 \right\} } \\ \end{align*} \]

練習問題1

次表のデータについて、下の問いに答えよ。

$x_i$ 偏差 $(x_i - \bar{x})$ 偏差の二乗 $(x_i - \bar{x})^2$
5 00
4-11
5 00
7 24
5 00
3-24
6 11
5 00
6 11
4-11

(1) 平均値$\bar{x}$を求めよ。

\[ \begin{align*} \bar{x} &= \frac{5+4+5+7+5+3+6+5+6+4}{10} = 5.0\\ \end{align*} \]

(2) 分散$V$を求めよ。

\[ \begin{align*} V &= \frac{0+1+0+4+0+4+1+0+1+1}{10} = 1.2 \\ \end{align*} \]

(3) 標準偏差$\sigma$を求めよ。

\[ \begin{align*} \sigma &= \sqrt{1.2} \fallingdotseq 1.10 \end{align*} \]

(4) ヒストグラムを作成せよ。

練習問題2

次表のデータについて、下の問いに答えよ。

$x_i$ 偏差 $(x_i - \bar{x})$ 偏差の二乗 $(x_i - \bar{x})^2$
4-11
2-39
5 00
4-11
8 39
6 11
5 00
3-24
6 11
7 24

(1) 平均値$\bar{x}$を求めよ。

\[ \begin{align*} \bar{x} &= \frac{4+2+5+4+8+6+5+3+6+7}{10} = 5.0\\ \end{align*} \]

(2) 分散$V$を求めよ。

\[ \begin{align*} V &= \frac{1+9+0+1+9+1+0+4+1+4}{10} = 3.0 \\ \end{align*} \]

(3) 標準偏差$\sigma$を求めよ。

\[ \begin{align*} \sigma &= \sqrt{3.0} \fallingdotseq 1.73 \end{align*} \]

(4) ヒストグラムを作成せよ。

練習問題1と平均値は同じですが、標準偏差が大きいので、よりばらつきが大きい分布になっているのがわかります。

(2) 正規分布と標準偏差

正規分布(normal distribution)とは

正規分布とは、平均値と最頻値・中央値が一致し、それを軸に左右対称の釣り鐘型をした分布のことです。「平均値付近のはよく起こり、平均値から離れたことは起こりにくい」傾向を表します。同学年の子どもの身長、テストの点数、工業製品の規格誤差、雨粒の大きさなど、身のまわりで見られる多くの自然現象や社会現象によく当てはまることで、「ありふれた(noramal)」分布といわれます。

正規分布の標準偏差

正規分布は、平均値・最頻値・中央値の値に関係なく、平均値の$\bar{x}\pm\sigma$の範囲に全データの68%,$\pm2\sigma$ の範囲に全データの95%,$\pm3\sigma$ の範囲に全データの99.7%が含まれる性質があります。

また、データのばらつきが小さい正規分布は山が高く、ばらつきが大きい正規分布は山が低くすそ野が広い形になります。

(3) 例題

例題1

表1はある試験を行った結果である。これについて、各問いに答えよ。

(表の中では、平均値$\bar{x}$を xa と表現しています。)

(1) 偏差と偏差の二乗

全員分の点数の合計と平均を求めます。合計はSUM関数,平均はAVERAGE関数を用います。

次に、各自の点数と平均点の差($x_i - \bar{x}$)とそれを二乗した値($(x_i - \bar{x})^2$)を求めます。

(2) 分散と標準偏差

$(x_i - \bar{x})^2$の平均(E38セル)が分散で、その平方根が標準偏差です。

平方根はSQRT関数または0.5乗をして求めます。

=SQRT(値)

(3) 分散と標準偏差を求める関数

分散を直接求めるときは、VAR.P関数を使います。

=VAR.P(値)

また、標準偏差を直接求めるときは、STDEV.P関数を使います。

=STDEV.P(値)

解答例

解答例はココをクリック。

例題2

表1は試験Aと試験Bの結果である。これについて、各問いに答えよ。

(1) 平均値・分散・標準偏差

例題1と同様に、平均値・分散・標準偏差を求めましょう。

(2) データのばらつき

(1)で求めた平均値・分散・標準偏差から、試験Aと試験Bでは、どちらの方がばらつきが大きいでしょうか。

(3) ヒストグラムの作成

試験Aと試験Bのばらつきの違いを、ヒストグラムを作成して確かめてみましょう。

解答例

解答例はココをクリック。

標準偏差はデータのばらつきを表す指標で、この値が大きいほどデータがばらついていることがわかります。

試験Aと試験Bは平均値は同じですが、標準偏差の値は異なります。試験Aの標準偏差は約12.4、試験Bの 標準偏差は約24.0なので、試験Bの方がばらつきが大きいことがわかります。