集計データの種類 ~クロスセクションデータについて~

はじめに

昨今ではITの進化により様々なデータが人々の周りを行き交うようになりました。しかし、これらのデータを単に一つのデータとして見てみてもあまり価値はありません。有益な情報として活用するには、集めたデータを整理し、分析する必要があります。

それでは、データの整理方法にはどのようなものがあるのでしょうか。集まったデータの整理の仕方は多岐にわたります。本記事では、データ整理の際に用いる形式の一つである「クロスセクションデータ」について記載します。

クロスセクションデータとは

クロスセクションデータとは、時間をある時点で固定して、場所やグループ別などに複数の項目を記録したデータを指します。一定時点を断面的に切り取ったデータとなるため、クロスセクションデータは横断面データとも呼ばれます。

クロスセクションデータに対して、時間の経過に沿ってある一つの項目を記録したデータを時系列データ(タイムシリーズデータ)といいます。このデータは時間の推移による変化を分析する際に用いられます。クロスセクションデータと比べて時間の要素が加わるため情報量が多く、分析の幅が広がる傾向にあります。

クロスセクションデータと時系列データの違いは時間の要素の有無だけではありません。クロスセクションデータではデータの並びは任意であり、並び替えを行っても特に問題はありませんが、時系列データでは、その並びにこそ本質的な情報が含まれているため、その並びを意識した分析を行わなければならない点に注意が必要です。

なお、上記2つのデータ要素を合わせたもの、つまり、同一の対象を継続して複数の項目にわたり記録したデータをパネルデータと呼びます。以下の図は、クロスセクションデータ、時系列データ、パネルデータのそれぞれの関係について典型的な例を記載したものとなります。

・ある時点の複数の項目記録したデータをクロスセクションデータ(横列)

・ある一つの項目を時間の経過に沿って記録したデータを時系列データ(縦列)

・同一の対象を継続的に複数の項目にわたって記録したデータをパネルデータ(表全体)

クロスセクションデータのメリット・デメリット

クロスセクションデータを適切に使用するには、メリットとデメリットを把握しておく必要があります。

クロスセクションデータのメリット

クロスセクションデータには、各データごとの相関関係を明確にする特徴があります。これはデータの照合や比較を行う際に、非常に重要な要素となります。例えば、ある時点における日本の人口を男女別、年齢別、地域別等で集計したような場合には、クロスセクションデータとしてデータを整理することで、集計したデータ間の込み入った関係を明確にすることができ、データの照合や比較を簡潔に行うことができます。

このようにクロスセクションデータでは、全体の合計データを集計した上で、さらに性別や年齢別などの属性別に集計したデータの比較を行うことにより、より詳細な情報を読み取ることに適してます。

クロスセクションデータのデメリット

一定時点を切り取った断面的なデータのため、時間経過による推移が読み取れないのはデメリットとなります。例えば、各項目ごとの上昇/下降傾向といった時間的な要素が無いため、将来のデータを予測することは困難となります。また、同じ理由で過去の記録を評価することもできません。

まとめ

データの分析は、各データのバラツキをうまく分解し、有益な情報を取り出すことを行います。その為にはまず分析しようとする問題そのものを明確に理解した上で、そこから逆算してどのようなデータが必要か、どういった分析手法にするのかを考えていく必要があります。

クロスセクションデータは複数項目の相関関係を明確にする際にとても効果的なものです。また、データ分析を行う上でも、その分かりやすさから技術を要求される場面が少なく、データ分析の初心者にも比較的敷居の低いデータの整理方法と言えるでしょう。実際に、多数の方に見られることが予想される、国や地方公共団体等が作成する官庁統計の多くはクロスセクションデータとなります。ただその一方で、あくまで断面的に切り取ったデータであり、時間経過によるデータの推移を確認することができない点には注意が必要です。クロスセクションデータを使用する際には、メリット・デメリットを把握した上で、データ分析の目的に本当に適したものなのかを考えて運用していく必要があるでしょう。