いまさら聞けない「データサイエンティスト」とは

はじめに

データサイエンティストについて学習を進めていく中で、必ずと言っていいほど疑問に浮かぶのが『そもそもデータサイエンスとは何なのか?』なのではないでしょうか。データサイエンティストやデータサイエンスは、言葉としては広く認知され始めたものの、その意味や役割までを答えられる方は少ない状況と言えます。まずはデータサイエンスとは、データサイエンティストとは、その特徴や役割についてご紹介し、データサイエンティストになるために必要なスキルや知識についてご紹介してまいります。

データサイエンスとは

データサイエンスは、データ=情報、サイエンス=科学で、直訳すると情報科学となります。IT技術が進歩し、企業や団体、個人が簡単に大量のデータを保有できるようになったことから、そのデータをさまざまな活動に利活用することで、大きな利益や発見を得られるようになりました。これらのデータを、科学的手法やアルゴリズム、プロセスやシステムを使い、分析・分類することによって、知見や未来予測といった何らかの結論を導き出そうとする研究分野がデータサイエンスとなります。

データサイエンスの重要性

データサイエンスという言葉自体は新しいものではなく、当初は統計学者を中心として研究が行われていた分野でした。2010年以降、大量で複雑なデータ(=ビッグデータ)を企業が収集できるようになり、現在、AIや機械学習の流行によって、データサイエンスが実験・実証を域を越えて、企業に利活用できる段階になったことから、社会的な認知が広まりました。

このように、企業がビッグデータを収集・保有できるようになったものの、データが大量・複雑であることから整理されていないことも多く、データがただのデータのままになってしまうことが企業の問題でした。そこで、データを整理・分析することで、共通点や新しい知見、未来予測を行えるデータサイエンスが今注目されています。これまでただ保有されていたデータから、企業の経営に重要な影響をもたらす結果が導き出せるようになり、データサイエンスが企業において重要な分野のひとつとなりました。

データサイエンティストとは

データサイエンスの重要度の高まりを受け、企業においてデータサイエンスを用いてデータの分析を行えるデータサイエンティストの需要も高まっています。データサイエンティストは、文字通りデータサイエンスの実践者であり、データを分析することでビジネス的な価値を効率よく見つけ出し、その結果をビジネスに活用できる人材を指します。単なる分析を行うだけでなく、ビジネスにおける課題を理解し、データの分析結果をビジネスに利活用できるようにすることがデータサイエンティストの大きな役割です。

データサイエンティストとデータアナリストの違い

ビッグデータを分析するという点で共通する職業として、データアナリストをご存じでしょうか。これらの2つの職業はよく似ている職業として混同されがちですが、どこに主軸を置いて業務を遂行していくかや担当業務の範囲に違いがあります。

データアナリストは、主に「収集」と「分析」を担っており、データの分析者としての役割が大きいことが特徴です。データの分析を行い、それらを活用しながら、経営課題やサービスの改善と提案を行う職種となります。企業が求めるデータアナリストは、データの収集と分析スキルに限定されていることも多いです。これに対してデータサイエンティストは担当領域が広く、「課題の抽出」「データ収集・分析」「仮説の構築」「アルゴリズム・予測モデルの実装」と担っており、ビジネスでの活用までを見据えて課題の抽出から提案を行います。

データサイエンティストに必要なスキル

このように幅広い業務を担当するデータサイエンティストにとって必要とされるスキルを、一般社団法人 データサイエンティスト協会が以下の3つに定義しています。

1. ビジネス(business problem solving)力

このスキルは、どんなデータを対象にして収集分析を行うかを設定するフェーズや、分析結果を提案するフェーズで必要とされるスキルです。具体的なスキルとしては、ビジネスのプロセスやプロジェクトマネジメントに関する知識やロジカルシンキングのスキルなどがあたります。分析された結果をビジネスに活用することがデータサイエンティストとしての大きな役割のひとつであるため、このビジネス力は必須のスキルであるといえます。また、経営課題を知るにも、データを収集・分析するにも、チームや他部門との連携が必要です。経営全体やプロジェクトについて知ることで、スムーズなコミュニケーションが行え、適切な収集・分析が可能となります。

2. データサイエンス(data science)力

このスキルは、情報科学系の知識を理解し、利用する力を指します。主にデータの収集や分析、仮説検証のフェーズで必要とされるスキルです。具体的には、データの視覚化や機械学習、数学・統計学の知識があたります。データの分析結果を数値のみではなく、グラフや表といった視覚的に表すことで、直感的にデータの示す意味や結果を理解することができます。データの結果が迅速に把握できるようになることで、情報の共有や課題解決といった、分析の次のフェーズもスムーズに行えるメリットがあります。また、機械学習や数学・統計学の知識は、データの種類や特性に見合った機械学習・数学・統計学を活用できるようになるために必要なスキルとされています。

3. データエンジニアリング(data engineering)力

このスキルは、プログラムを用いた加工処理やシステム・インフラに関する知識を使用し、分析アルゴリズムの実装や予測モデルを構築できる力を指します。主にデータの収集や分析のフェーズで必要とされるスキルです。具体的には、プログラミングや環境構築・データ蓄積、ITセキュリティの知識があたります。データサイエンティストが使用するプログラミング言語としては、R言語・Pythonが圧倒的なシェアを誇っています。開発実行環境や機械学習において多用されている言語であり、データ分析において利便性の高い言語であることが理由とされています。データ収集の環境を構築する際にプログラミングのスキルが必須です。

このように3つのスキルが必要とされているデータサイエンティストですが、3つのスキルを完璧にマスターしている人材は非常に少ないのが現状です。それぞれのスキルに特化した専門家でデータサイエンスのチームを立ち上げる企業や、データの収集は他企業の製品やサービスと利用するといった一部業務をアウトソーシングする企業がほとんどです。

また、データサイエンティストは未経験者には狭き門となっている職種でもあります。データサイエンティストを目指している方は、企業のコンサルやマーケティングといった部門やエンジニアとして、上記3つのスキルのうちどれかの実践経験を積むことが大切です。

おわりに

今回はデータサイエンスやデータサイエンティストの概要や特徴、そしてデータサイエンティストにとって必要なスキルについてご紹介されていただきました。データサイエンティストの需要は高まっているものの、データサイエンティストを名乗れる人材は日本国内においてまだまだ希少といえます。今回ご紹介した役割を理解し、スキルを身に着けることがデータサイエンティストになるための一歩になるでしょう。本記事が皆様のお役に立てれば幸いです。ありがとうございました。

前の記事

AI開発の基本