分析〜データ活用〜

はじめに

データ分析に挑戦したいと考えたとき、目的と意味をしっかりと意識して取り組んでいますか。なんとなくデータを分析してみたのでは、あまり意味のある結果は得ることができません。分析によって導き出されたデータ(分析データ)の理解を深めて、より良いデータの活用を目指しましょう。

データの種類

データにも種類があり、データの性質によって使用できる計算方法が異なっています。データの種類には、量的データと質的データがあります。

量的データは、数値で表されるデータが該当し、身長・体重・金額・温度などがあります。量的データは、さらに比率データと間隔データに分類でき、四則演算の中で使用できる 計算が異なります。

質的データは、区別・分類のために数値が与えられたデータのことです。四則演算は使用することができません。これには、順位データやカテゴリデータが該当します。

代表値

代表値とは?

代表値とは、データ全体の特徴を数値で表したものです。平均値(アベレージ)・中央値(メジアン)・最頻値(モード)があります。

平均値

平均とは、平らに均すことを指します。データをすべて足し、データ数で割ることを算術平均(相加平均)と呼び、特に条件がない場合の平均は、算術平均を指します。この他にも、加重平均・幾何平均・移動平均などがあります。平均値は、外れ値(極端に大きいまたは小さい値)により値が 大きく変わることがあります。

中央値

中央値は、データを小さい順または大きい順に並べたときに、真ん中に来る数値のことを指します。外れ値によって、大きく値が変わることはありません。データ数が偶数個の場合、真ん中の2つのデータの平均を中央値とします。

最頻値

最頻値とは、データをいくつかのクラスに分けたとき、もっとも度数の多いクラスのことを指します。データの数が少ないとあまり意味がなく、クラス分けによって、最頻値のクラスが変わることがあります。

標準偏差と正規分布

標準偏差

平均値を使って、バラツキ度を確認することを分散と呼びます。平均と各データとの差を偏差と呼び、1つのデータが 平均値とどの程度離れているかを示すことができます。偏差総和は0となるので、データのバラツキ度を示すことはできません。データのバラツキ度を示すために、各データの偏差を2乗し、その総和をデータ数で割ります。その値を平方根した値が標準偏差です。標準偏差が小さいほどバラツキ度が小さく、逆に大きいほどバラツキ度も大きくなります。

正規分布

正規分布とは、左右対称の釣鐘型の分布のことを指します。正規分布のパターンは、平均と分散によって決定します。どんな正規分布でも、平均から±1標準偏差までの距離に全体の約68%のデータが集まっています。平均値±2標準偏差で約95%、±3標準偏差で約99%のデータが含まれます。正規分布の平均値±標準偏差の範囲は、あるデータがその範囲のなかに含まれている確率を示しています。正規分布を表現するには、データを度数分布表・ヒストグラムから考える方法があります

度数分布表

度数分布表とは、データを元に最大値・最小値の範囲、グラフの幅(階級)とその度数(頻度)を決め、表としてまとめたものです。

ヒストグラム

度数分布表から柱状グラフを作成したものをヒストグラムと呼びます。データが少ないとガタガタな形になりますが、データを増やし階級を細かくすることで曲線に近づきます。曲線に近づいたものから、正規分布グラフを作成することができます。

母集団と標本

データを分析するにあたって、対象の全データを集めることは簡単ではありません。そのため、おおもとの集団な中からサンプルデータを取出し、集団の特徴などを推定することができます。このおおもとの集団のことを母集団と呼び、母集団からサンプルを取ってきたデータの集まりを 標本と呼びます。

母集団

母集団の平均・分散・標準偏差のことを、母平均・母分散・母標準偏差と呼びます。注釈なしで平均と表記されるときは、この母平均のことを指します。

標本

標本の平均・分散・標準偏差のことを、標本平均・標本分散・標本偏差と呼びます。標本分散をもとに母分散を推定していくと、値が少し小さくなる特徴があるので、母集団の推定値となる不偏分散があります。

まとめ

データ分析の知識を、深めていただくことはできたでしょうか。データ分析は、普段聞きなれない言葉が出てくることもあるので、難しく感じるかもしれません。データ分析は、知識があれば、必ずしもできるようになるものではありません。データ分析がどのようなものであるかを学び、イメージ・実践していろいろなデータに触れてみてください。その実践の中で、気づくことがあり、それが自分の力に変わっていくでしょう。