この連載は、現在高校で使われている情報Iの教材をベースにし、重要なポイントを整理して5分で読める記事にします。ITの基本知識として知る必要がある内容がたくさんあります。また大学共通テストに出やすいポイントを説明しますので、テスト対策にも役に立てば幸いです。重要キーワードを赤いマーカーで表記します。
データ分析(前編)
実は、大学の共通テスト「情報I」で出題されている問題は、高校「情報I」の情報分析に関係する内容が最も多いです。最後の大問は必ずデータ分析の問題になります。特に相関関係の応用は必須項目となります。内容が多いので、2回に分けて、データ分析に関する内容を整理します。今回は「データ収集」、「データ整理」と「基本統計量」を見てみましょう。
データ収集
データ分析にはデータがないといけません。そのため、データの収集方法を知ることがすべての始まりです。
一番よく使う方法は、アンケート調査です。適切な調査対象を選んで、同じ質問を出して、多くの回答を集める方法です。このアンケート調査には、全数調査と標本調査があります。
全数調査とは、すべての対象に対して調査する方法です。例えば、全校生徒に対する健康調査。正確な結果が得られます。
標本調査とは、全対象から一部の対象を抽出し調査を行い、その結果から全対象の性質を統計学的に推定する方法です。サンプリング調査とも言います。この方法では、理論的に誤差を避けることができません。例えば、選挙時の支持政党の調査。
現在日常生活に関わる多くのデータが毎日自動的に蓄積されています。これらのデータを個人を特定できないように加工し、国や企業が公開しています。
オープンデータとは、国や自治体、教育機関、企業などが保有し公開しているデータです。インターネットから誰でも簡単に入手でき、自由に利用できるデータです。例えば、e-Statで政府や各府省が集計し発表している統計データが公表されています。
ビッグデータという言葉もよく耳にします。これは、大量かつたくさんの種類のデータの集合体のことです。例えば、ネットサーフィンの履歴、ネットショップでの買い物記録、GPSのデータ、ブログのコメント、IoTなどで収集されているデータ。文字であったり、画像であったり、動画であったり、いろんな種類のデータがあります。これらのデータの集合体をビッグデータといいます。
データ整理
データが集まりましたら、次はデータの整理をしなければなりません。このポイントに関しては、いくつかの言葉を覚えればいいです。
量的データ:データ自体に意味があります。計算できるデータです。例えば、長さ、重さ、温度など。
質的データ:分類や種類を区分するラベルとしてのデータです。計算されても意味がありません。例えば、出席番号、等級など。
外れ値:データの中に、他の多数のデータから大きく外れた値のことです。この外れ値は共通テストの問題に出る可能性があります。例えば、データの散布図グラフを見て外れ値を見つけることができるかどうかテストされることがあります。
度数分布表:データをいくつかの階級に区分し、それぞれの階級に属するデータの個数を記入する表です。ヒストグラムで可視化することができます。
では、度数分布表の作り方を例で説明します。
以下は、ある学校の50人の生徒の成績です。度数分布表を作ってみましょう。
67 58 75 89 46 62 56 79 60 30
76 64 52 66 42 81 63 59 65 77
38 86 64 70 50 93 78 76 57 68
98 64 55 66 53 82 62 73 60 51
49 67 56 75 85 61 58 44 79 65。
| 階級 | 階級値 | 度数(個数) | 相対度数 |
| 30〜39 | 35 | 2 | 0.04 |
| 40〜49 | 45 | 4 | 0.08 |
| 50〜59 | 55 | 11 | 0.22 |
| 60〜69 | 65 | 16 | 0.32 |
| 70〜79 | 75 | 10 | 0.20 |
| 80〜89 | 85 | 5 | 0.10 |
| 90〜100 | 95 | 2 | 0.04 |
| 計 | 50 | 1.00 |
データ分析のための基本統計量
データ分析では、まず、6つの基本統計量を覚えましょう。
基本統計量:
1.平均値:複数のデータをすべて足し合わせた結果をデータの個数で割った値。
外れ値に影響されることに要注意です。
2.中央値:複数のデータを小さい順で並び替え、ちょうど真ん中にある値。
もしデータの数が偶数なら、真ん中の2つの値の平均値を取った値。
3.最頻値:複数のデータの中、最も回数が多く出た値。
同数の最頻値があった場合、すべてが最頻値とします。
4.偏差:それぞれの数値と平均値の差。
正数も負数もあります。
5.分散:それぞれデータの偏差を2乗にした結果の平均値をとった値。
2乗にするのは、偏差の正数と負数が相殺されないためです。
分散は、データのバラツキの度合いを表す値です。
6.標準偏差:分散の正の平方根をとった値。
分散の結果の単位は2乗になっているので、平方根をとることで、
もとの単位に戻します。
分散と同じく、データのバラツキの度合いを表す値です。
標準偏差が大きいほどデータのバラツキが大きいです。
では、データ整理の例題を使って、6つの基本統計量を計算しましょう。
50個の成績データ:
67 58 75 89 46 62 56 79 60 30
76 64 52 66 42 81 63 59 65 77
38 86 64 70 50 93 78 76 57 68
98 64 55 66 53 82 62 73 60 51
49 67 56 75 85 61 58 44 79 65
①平均値を計算
合計の計算 67 + 58 + 75 + … + 44 + 79 + 65 = 3250
平均値 = 3250 ÷ 50 = 65
②中央値を計算
50個の成績データを小さい順で並び替えます。
30 38 42 44 46 49 50 51 52 53
55 56 56 57 58 58 59 60 60 61
62 62 63 64 64 64 65 65 66 66
67 67 68 70 73 75 75 76 76 77
78 79 79 81 82 85 86 89 93 98
今回50個なので、偶数です。25番目と26番目のデータの平均値を計算
中央値 = (64 + 64) ÷ 2 = 64
③最頻値を確認
数を数えて、最も回数が多い値を見つけ出します。
最頻値 = 64
④偏差を計算
それぞれのデータから平均値を引きます。
2 -7 10 24 -19 -3 -9 14 -5 -35
11 -1 -13 1 -23 16 -2 -6 0 12
-27 21 -1 5 -15 28 13 11 -8 3
33 -1 -10 1 -12 17 -3 8 -5 -14
-16 2 -9 10 20 -4 -7 -21 14 0
⑤分散を計算
上記の偏差の値を2乗にして、結果を合計し、平均値を計算します。
22 + (-7)2 + 102 + … + 142 + 02 = 9916
分散 = 9916 ÷ 50 = 198.32
⑥標準偏差を計算
分散の値の平方根を計算します。
標準偏差 = √198.32 = 14.08
以上、6つの基本統計量の取得ができました。
共通テストでは、そのまま計算をテストするものではなく、これらの知識を応用できるかをテストします。なので、それぞれの統計量の意味をしっかり理解する必要があります。
今回はデータ分析の前編です。「データ収集」、「データ整理」と「基本統計量」を説明しました。次回後編は「グラフによる可視化」、「四分位数」、「回帰分析」を説明します。統計の基礎をしっかり学ぶことで、問題を解くときの応用ができるようになります。
