データサイエンティストはどんな職業?おすすめの資格「統計検定」についても紹介

はじめに

AIや機械学習といった分野のシステムの精度が上がっていることからもわかるように、近年はインターネット上にある膨大なデータを収集することが容易になっており、専用のシステムさえあれば誰でも取得することが可能な時代です。

また、データを保存する物理的なディスクは以前より格段にコストが安くなっていたり、仮想化・クラウド化技術が進歩していたりという状況もあってビッグデータと言われる大容量のデータを保存しておける環境も整っているため、直近のデータだけではなく何年にも渡る過去データを保持したままにして分析に使用することも可能となっています。

しかしデータを使わずに保存しているだけでは単なるデータ領域の浪費であり、宝の持ち腐れとなってしまいます。極端に表現すると、膨大なデータも管理している人や組織によっては粗大ゴミにもビジネスチャンスや課題発見の宝庫にもなるといった状況です。もし組織内に大量なデータが保存されていて、課題の解消やマーケティングに活用できることは薄々気づいているものの実際にどのように利用したら良いかわからないという場合は、データ分析・ビジネスへの活用が行える「データサイエンティスト」という専門的な職業を設置するべきでしょう。

企業によってはヒューリスティックなマーケティングや経営戦略を繰り返していて、収集したデータを後付としてだけ利用しているということもあるのではないでしょうか。ヒューリスティックとはいわば「経験則」のことで、実データよりもこれまでの経験や記憶によって直感的に意思決定を行う手法です。感覚100%によるものではないため、ヒューリスティック自体は短時間で意思決定を下すには有効な手段ですが、収集したデータを無視してヒューリスティックにばかり頼ってしまうと単なるバイアスになりかねません。

ヒューリスティックの悪い例として「アンカリング」が挙げられます。先にある数値を提示されると、その数値に引きづられてかけ離れた数値を提示できなくなるという効果のことを指します。スーパーで「お一人様5個まで」と書かれていると、書かれていない場合に比べて売り上げが上がる、フリマアプリで提示されている価格よりかけ離れた価格で値下げ交渉しづらいといった事象がその例です。

他にもステレオタイプに沿って勝手なイメージを作り上げてしまう「代表性」や目立った事柄、印象強い事柄を基準に判断してしまう「利用可能性」に関しても、ヒューリスティックによる判断を歪めかねない要因となります。職業によってその人の性格を判断してしまうような状況が代表性、全体の口コミよりも身近で馴染みの深い友人の意見の方が印象として強く残るというような状況が利用可能性と考えてもらって問題ありません。

管理者、あるいは専門家として迅速な意思決定をすることも時には重要ですが、その判断を誤らないためにもデータサイエンティスト等の専門の職業を配置して、日頃から精度の高いデータ分析を継続することは非常に重要です。またヒューリスティックはどうしても新たな事象が発生した場合に判断が難しくなり、無理に経験則に当てはめようとするとこれもまた単なるバイアスになってしまいます。

この記事では、近年IT業界にかかわらず様々な業界で注目されているデータサイエンスの重要性やデータサイエンティストという職業について紹介したうえで、データサイエンティストを目指す場合に取得しておくと役立つ「統計検定」という資格試験について紹介します。IT業界において資格は必須ではないものの、取得しておくことで能力を客観的に証明することができて就職・転職時に有利になったり、自身のレベルを再確認できたりする他、取得に向けて勉強することで、すでにデータサイエンティストとして働いている場合も業務上不足している知識を補完することができます。特に独学でデータサイエンティストを目指すことは他のIT職種に比べても難しいと言われているため、資格取得を目指すことは知識・技術を習得することはもちろん、自身の成長度合いを確かめるためにも有用と言えるでしょう。

これからデータサイエンティストを目指している方、興味を持っている方、すでに業務はしているものの「統計検定」の資格取得を目指している方、会社から取得を推奨されているという方はぜひご覧ください。

データサイエンスの重要性について

政府が2022年に公表した「AI戦略 2022」においては、高校卒業までに数理・データサイエンス・AIといった分野のリテラシー習得、全大学生・高専生はそれらの分野に関する初級レベルの知識とスキルを習得することを2025年までの目標として掲げています。高校においては2023年4月から選択科目として「情報II」が開設され、そこでデータサイエンスを学べるようになっています。そのため2023年現在から数年後にはこれらの知識・スキルを十分を基礎知識として身につけた人材が続々と企業に入社することが予想されます。

データサイエンスという概念は何もここ数年で登場した新しいものではありません。データサイエンスの持つ意味合いこそ時代とともに少しずつ変化はしていますが、すでに1960年代には統計を表す言葉として利用されていました。その後1990年代後半頃からはコンピュータの専門家がデータの設計、収集、分析といった3つの側面を表す言葉として利用するようになりましたが、まだ一般的とは言えない状況でした。

このような経緯のあるデータサイエンスをなぜ2020年代に入って若年層の学問として政府が推奨しているかというと、近年のビジネスを始めとした様々な業界でデータサイエンスの重要性が増しているためです。企業においては自社の課題発見や競合他社との差別化、経営戦略においてビッグデータを活用して意思決定を行うことがあります。これまでデータと言ったら単純な売り上げ金額、顧客情報、商品情報といったものがメインでした。これらのデータからもある程度の分析を行うことは可能ですが、データサイエンスにおいてはその程度のデータだけではなく、一見関連性のないと思われる情報、非常に微細な情報、場合によっては非構造化データといったものまで満遍なく収集して分析に生かします。

例えば、とあるテーマパークにおけるGPS情報から収集できる顧客の行動データ、飲食業界における曜日ごと、時間帯ごとの売り上げデータや一人当たりの単価、食材の鮮度、日々の天気、小売業界におけるオンラインショッピングでの顧客動向や購買履歴、保険業界におけるダイレクトメール送付時の成約状況等です。これらはほんの一例で、他にも金融業界や医療業界、介護業界等でもデータサイエンスが活用されていることも珍しくありません。分析結果を顧客満足度の向上や、従業員の業務効率化に繋げるというのも一般的な利用方法の一つです。これまでIT業界を中心として一部でのみ行われていたビッグデータの分析が、他業界のビジネスでも幅広く活用されるようになっているのが現状です。

データサイエンスはデータを分析することが全てではありません。現在はAIや機械学習の技術が進歩しているため、データ分析だけであればこれらのシステムに任せておけば自動で完結できることもあります。あくまでもデータサイエンスの目的は膨大のデータを分析した中から新たな価値や考え方、戦略を見出すといったところにあります。目視では見逃してしまう重要な要素、ヒューリスティックからは導き出せない新たなアイデアを発見してビジネスに活用すべく、統計学やプログラミング、AI・機械学習を用いて可視化を行います。

このように誰もがデータサイエンスを行えるようになったのはインターネットの普及、高速化の賜物と言えます。インターネットが一般的に利用されるようになると、それだけアクセス履歴や頻度、アクセス元情報やSNS上の情報をはじめとした不特定多数による多様な情報が大量に蓄積されていきます。IT業界ではこれらのデータからアクセス解析を行ってホームページの作成に役立てたり、アフィリエイト広告の効果測定を行ったりということを以前から行われていましたが、オンラインショッピングの増加や行政関連の手続きがオンライン上でも可能になったことにより、さらにインターネットを利用する人の範囲が拡大し、かつそれらのサービスを運用する様々な業界がデータを収集して分析活用するような状況となっています。またこのような動きはビジネスの枠だけにとどまらず、環境問題、食糧問題といった社会的な課題の解決にも生かされています

データサイエンスにおける主な分析方法

主な分析方法としては、記述的分析、診断分析、予測分析、処方的分析の4つが定義されています。

記述的分析ではデータから何が起こったか、起きているかを洞察し、円グラフや棒グラフ、線グラフ、表等を利用してデータの視覚化を行います。診断分析では発生した事象の原因をドリルダウンやデータディスカバリー、データマイニング、相関を使って解析します。固有のパターンを検出することで再度同様の状況が発生した際に効果的なアプローチを取れるようになる可能性があります。

予測分析では蓄積した過去データを分析することで今後発生する可能性のあるパターンを導き出します。分析には機械学習、予測、パターンマッチング、予測モデリング等を利用します。最後の処方的分析では予測分析によるデータのレベルを上げます。将来起こりそうなことの予測だけでなく、その結果として起こりうることに対する対処方法までを予測します。グラフ分析やシミュレーション、複合イベント処理、ニューラルネットワーク、機械学習のレコメンデーションエンジン等を使用してパターンごとの最善策やリスクヘッジが行えるようなイメージです。

データサイエンスでは以上の分析をすることによって企業や業界に変革をもたらすような未知のパターン、新たなパターンの発見、隠れている真の課題の確認や課題とのギャップを埋めることによる顧客満足度の向上、リアルタイムで発生する問題への迅速な対応へ役立てることができます。

データサイエンティストの仕事内容は?

データサイエンティストはデータを収集して分析・解析を行い、ビジネス等の課題解決や戦略、意思決定に役立つ情報の提供や提案をする職業です。似たような職業にデータエンジニアやデータアナリストがありますが、データエンジニアはデータの収集や管理、調整やそれらを行うためのシステム構築といった業務に特化しており、データアナリストは分析や分析結果を完結に解説することに特化した職業となります。ただしそれぞれを特に区別せずに一括してデータサイエンティストとして求人が出ている場合や、企業によって多少業務範囲が異なる場合もあるため、それぞれの違いを細かく覚える必要はありません。一企業において3つの職業が別々に存在する場合は上記のような違いを意識すると良いでしょう。

具体的な仕事内容としては、まずある企業や分野における課題の抽出が挙げられます。膨大なデータの中から必要なデータだけを抽出するためには、課題を明確にしておく必要があります。自社の対象部門やクライアントからヒアリングを行い、解決すべき課題と最終的な目標を設定し、仮説も立てたうえで次の工程に進みましょう。

次に行うのはデータの収集です。必要に応じてデータを保存するデータベースやデータウェアハウス、ストレージといった環境を構築し、収集するためのAPIやプログラム等も実装したうえで収集を開始します。

必要なデータが収集できたら初めて分析に入ることができます。収集したデータの中には不適切なものや異常値であるものが含まれるため、これらをクレンジングしたり加工したりする必要も出てきます。分析に関しては主に仮説検証型と知識発見型という2種類の手法があります。仮説検証型は、課題の原因に対して仮説を立ててデータ分析によって立証する手法です。知識発見型は、データから得られる結果を基に特定パターン、類似性等を見つける手法です。課題が複数ある場合は優先順位を付けつつこれらの手法を使って分析を行います。なお仮説が立証できなければ、改めて仮説の立案からやり直さなければなりません。

分析が完了したらレポート等を作成して依頼者へ分析から把握できたことをわかりやすく解説し、必要に応じて提言を行います。以上がデータサイエンティストの基本的な業務の流れとなります。

なおデータサイエンスの項目でも紹介したように、近年はビジネスだけではなく社会的な課題においてもデータサイエンスのスキルが利用される傾向にあるため、データサイエンティストの将来性は当分の間見込まれると言えるでしょう。データの収集や分析だけであればAIだけで事足りる可能性がありますが、正確な課題の把握や課題解決、戦略等の提案に関してはデータサイエンティストであればこそ提供できる大きな価値となります。ただし企業の今後を左右する意思決定をするきっかけとなることもある重要なポジションである他、技術の進歩やトレンドの変化のスピードが早く、様々な分野においてデータサイエンスを行う必要があるため、常に技術力の向上や最新技術、知識の習得をしていく必要があります。それでは長くデータサイエンスとして活躍するために必要なスキルについて紹介します。

必要なスキル

データサイエンティストに求められるスキルは多岐にわたるので、研究者のような名称こそついているものの実際には総合的なビジネススキルが必要です。

まず必要となるのはコンピュータサイエンス、統計学、数学、情報科学、情報処理、人工知能に関する詳しい知識です。そしてデータの整備や抽出、分析をするためのプログラミングスキルやデータベース、BI(Business Intelligence)ツールの操作スキルも必要となります。

プログラミング言語としてはPython、R言語、Scala、Go等が多く利用される傾向にあり、BIツールとしてはMicrosoft Power BI、Oracle Analytics Cloud、Tableau、SPSS等があります。昔からデータサイエンスを行っている現場ではSASというソフトウェア(言語)が使われていることもあるでしょう。BIツールは操作ができるだけではなく、データを適切に加工して視覚化するスキルも求められます。

またデータベースに関しては現時点で多くのシステムで利用されているタイプが「リレーショナルデータベースシステム」であるため、SQLの知識は必須となります。複数のプロジェクトを兼任する場合は、プロジェクトによって異なる言語やツールが利用されていることもあるのでそれだけ多くの知識やスキルが必要とされます。

なお分析においては、構造化データだけではなく非構造化データも収集する場合があります。非構造化データとは単純に数値化できない画像・動画・音声、カスタマーレビュー、SNSの投稿内容等です。非構造化データはAIを利用することで解析できるようになったものであり、現在はこの解析による可能性に着目されています。そのためデータサイエンティストは、非構造化データの解析ができるシステムも扱えるという点が重要視される可能性が高いです。

そして、ビジネスにおけるAI活用の幅が急激に広がる中でデータサイエンティストが人であることに重きが置かれるのが洞察力と、ヒアリング、提案・プレゼンといったコミュニケーション能力やビジネス力です。洞察力は収集・分析結果から課題の本質を見抜き、有効な解決手段を導き出すために必要です。また、課題を正確に把握するためには該当部署やクライアントから十分な情報を聞き出さなければならないため、ヒアリング能力が必要で理路整然とわかりやすく説明できる能力も必要です。これらの能力は長年社会人として働いていれば自ずと身についてくるところもありますが、データサイエンティストとして活躍する際も決して軽視できないスキルであることを覚えておきましょう。

以上のようにデータサイエンティストは幅広い知識・スキルが求められますが、その中で必要な統計の知識を習得するために役立つ資格試験「統計検定」について詳しくみていきましょう。

統計検定はどのような試験?

日本統計学会が公式認定している統計に関する資格試験で、全国で実施されています。統計検定は統計検定4級(初級)〜1級と統計調査士、専門統計調査士、DS基礎、DS発展、DSエキスパートの10種類で構成されています。データサイエンティストになるために資格取得は必須ではないものの、統計に関する専門的な知識を身に付けるのには適しています。また企業によっては統計検定の取得を推奨している場合もあるでしょう。

4級ではデータ、表、グラフ、確率といった中学数学レベルの基礎知識、1級になると様々な分野でデータ解析が行える大学専門課程レベルの知識が問われます。なお統計調査士は高校数学レベル、専門統計調査士は大学専門課程レベルであり、マーケティング等のビジネスに活かせる実用的な統計調査に特化した内容が問われます。DS系の試験ではデータサイエンスにより特化した専門的な内容がそのレベルに応じて出題されます。また、統計調査士やDS系の試験は学問的な知識だけではなく実務能力も問われることとなります。4級こそ70%以上の合格率となっているものの、準1級となると30%以下の合格率となるので多くの学習時間が必要となる可能性があります。

受験までの流れ

統計検定はコンピュータを利用したCBT方式で行う試験です。株式会社オデッセイコミュニケーションズのサイトで無料のアカウント登録を済まし、全国の受験会場から希望の会場・日時を選択して直接会場に申し込み、受験料も会場に対して支払うという仕組みになっています。予約が完了したら当日受験会場に向かって受験しましょう。受験料金については学割が適用されると安くなり、試験によって通常料金と1,500〜2,000円程の違いがあります。具体的な料金については変更されている可能性もあるため統計検定の公式サイトで確認してください。

DS基礎以外は電卓の持ち込みが可能ですが、携帯電話を電卓として使用することは禁止されており、会場での貸し出しはされません。また電卓のチェックが入ることもあります。万が一不合格となった場合、同じ試験の再受験が可能となるまでに7日以上経過している必要があります。

まとめ

データサイエンスは現時点においてもすでに様々な業界で活用されている研究分野ですが、時代背景やIT技術の進歩等が後押しして今後さらに需要が拡大すると見られる将来性の高い分野と言えます。データサイエンスが求められるようになれば、当然ながら今回取り上げたデータサイエンティストやデータアナリスト、データエンジニアといったデータを専門的に扱える職業の需要も高まるため、すでに何らかのエンジニアとしてIT業界で働いている方も、これから学習を進めていけばIT業界のさらに幅広い分野で活躍できる可能性があります。まだデータサイエンスを活用していない業界や生かし切れていない業界があって大きな可能性を秘めているにもかかわらず、2023年時点では決して人材が充足している状況ではないため、これからデータサイエンティストを目指している方にもチャンスが多くあるとも言えます。

しかし未経験からの採用は難しい職業でもあるため、大学や専門学校、ビジネススクール等での知識・技術の取得が必要です。とは言え、すでに働いている方は十分に時間が取れない可能性もあります。合間を縫ってデータサイエンティストに必要な知識を身につける方法として、資格勉強は適している方法の一つです。

データサイエンティストに求められる知識やスキルの幅は非常に広く、働き始めてからも継続的な学習が欠かせませんが、まずは基礎となる統計に関する知識を「統計検定」で習得しながら、自分がデータサイエンティストという職業への適性があるかということ等も見極めつつ学習を進めてみてはいかがでしょうか。なお「統計検定」の詳細は2023年8月時点の内容となっており受験方法や出題内容、料金等、細かい部分で変更されている場合もあるため、実際に受験する際は統計検定:Japan Statistical Society Certificateの公式ページを参照してください。