高校生のみなさんこんにちは。
明野の塾、進学予備校ウインロード大分明野校の首藤です。


共通テストの中で、文章量が多く苦手な人も多い、「データの分析」についてです。
テストの前半で、ここで時間をとると余裕がなくなり、結果に大きな影響を及ぼします。
注意すべきは、用語の定義とその計算の仕方をしっかりと理解していなければなりません。
特に分散、標準偏差、共分散これは単なる定義、計算式だけではなく、
あるデータサンプルを加工するとどのように影響するのかを抑えておく必要があります。
少し例を示してみましょう。
例) 次のようなサンプルデータがあったとします。
12人について行った数学と英語のテスト(60点満点)の結果が下の通りです。

これらのデータについて各種代表値を見ていきましょう。数学をX,英語をYとする。
X {17,20,20,25,25,31,31,33,41,49,49,56}なので
第一四分位数は22.5、中央値は31、第三四分位数は45、四分位範囲は22.5、
平均値は33.1、分散は

$$S^{2}_{x}=\frac{(17-33.1)^{2}+(20-33.1)^{2}+…+(56-33.1)^{2}}{12}=152.9$$
標準偏差は
$$S_{X}=\sqrt{S^{2}_{x}}=\sqrt{152.9}=12.4$$
Y {27,30,42,43,44,44,46,48,48,51,51,55}なので第一四分位数は42.5、中央値は45、第三四分位数は49.5、四分位範囲は7.0、
平均値は44.1、
分散は
$$S^{2}_{Y}=\frac{(27-44.1)^{2}+(30-44.1)^{2}+…+(55-44.1)^{2}}{12}=62.1$$
標準偏差は
$$S_{Y}=\sqrt{S^{2}_{Y}}=\sqrt{62.1}=7.9$$
xとYの共分散は
$$S_{XY}=\frac{(17-33.1)(27-44.1)+(20-33.1)(30-44.1)+…+(56-33.1)(55-44.1)}{12}=69.2$$
相関係数は
$$\frac{S_{XY}}{S_{X}S_{Y}}=0.71$$となります。

さて、ここでXのデータを少し加工して新たなPというデータを用意します。
$$P=3\times{X}$$
つまりXの各データを3倍してみました。各代表値がどのように変化するでしょう。
P{51,60,60,75,75,93,93,99,123,147,147,168}となります。
データがそれぞれ3倍になるのですから当然次の代表値は3倍になります。
第一四分位数は67.5、中央値は93、第三四分位数は135、四分位範囲は67.5、平均値は99.3
分散は次のように3倍したデータから求められる値を2乗したものの和なので9倍となります。
$$S^{2}_{P}=\frac{(17\times{3}-33.1\times{3})^{2}+(20\times{3}-33.1\times{3})^{2}+…+(56\times{3}-33.1\times{3})^{2}}{12}$$
$$=\frac{((17-33.1)\times{3})^{2}+((20-33.1)\times{3})^{2}+…+((56-33.1)\times{3})^{2}}{12}$$
$$=9\times{S^{2}_{X}}$$
その平方根である標準偏差は3倍となります。
$$S_{P}=3\times{S_{X}}$$
 
次にYを次のように加工してQというデータを用意します
$$Q=Y-10$$
各データをそれぞれ10小さくしてみましょう。
Q{17,20,32,33,34,34,36,38,38,41,41,45}
それぞれ10ずつ小さいので、次の代表値は10小さくなります。
第一四分位数は32.5、中央値は35、第三四分位数は39.5、四分位範囲は7.0、平均値は34.1
分散は
$$S^{2}_{Q}=S^{2}_{Y}$$
標準偏差は
$$S_{Q}=S_{Y}$$

分散と標準偏差はYと同じでそれぞれ62.1と7.9となります。
今回の場合
PとQの共分散は
$$S_{PQ}=\frac{(17\times{3}-33.1\times{3})((27-10)-(44.1-10))+(20\times{3}-33.1\times{3})((30-10)-(44.1-10))+…+(56\times{3}-33.1\times{3})((55-10)-(44.1-10))}{12}=69.2\times{3}$$
$$=3\times{S_{XY}}$$
相関係数は
$$\frac{S_{PQ}}{S_{P}S_{Q}}=\frac{3\times{S_{XY}}}{3\times{S_{X}}S_{Y}}=\frac{S_{XY}}{S_{X}S_{Y}}=0.71$$
で変化しない

ここまでのまとめでは
データを\(a\)倍すると分散は\(a^2\)倍、その他は\(a\)倍になる。
データにある値を足したり、データからある値を引いたりすると、
分散と標準偏差は変化しないがその他の代表値はその値を足したり、引いたりした値となる。
極めて当たり前の事ですが、一度整理しておくとその都度考えなくて済みます。

さらに加工した場合については次回