AWS Lake Formationの概要と使用するメリットとは?

AWS Lake Formationについて

皆さんは「データレイク」または「ビックデータ」といったIT用語を聞いたことはあるでしょうか?
国家資格である基本情報技術者試験の午前問題などで目にしたことがあるのではないでしょうか?
AWSではこれらを管理するためのサービス「AWS Lake Formation」というものがあります。
今回は「AWS Lake Formation」の概要とメリットについて「データレイク」や「ビックデータ」といった関連する用語を交えながらご紹介したい思います。

AWS Lake Formationとは?

AWS Lake Formationとは何かを説明する前に、「ビックデータ」と「データレイク」について軽く説明いたしましょう

●ビックデータ

IT用語辞典によるとビックデータとは「様々な形をした、様々な性格を持った、様々種類のデータ」のことを指します。
量(Volume)、種類(Variety)、発生頻度・更新頻度(Velocity)の3つの要素からなります。
ビックデータは主に需要の予測などに利用されています。

●データレイク

データレイクとはビックデータを多数のソースから、元のままの多様な形式で保持するストレージリポジトリのことを指します。
データを格納する際に識別してデータタグを関連づけることにより、検索を高速化しています。

●AWS Lake Formation

AWS Lake FormationはAWSでデータレイクを構築し、運用するために作成されたマネージドサービスです。
実際にはAWSが提供する様々なサービスをラップしたもであり、データレイク専用にアクセス制御を行うために「AWS IAM」も利用している一方で、独自の権限管理機構を持っています。

AWS Lake Formationのメリット

●素早いデータレイクの構築

AWS Lake Formationを利用することにより、データの「移動」「保存」「消去」「カタログ化」を素早く実行することが可能です。
AWS Lake FormationにはAmazon S3内のデータで頻繁に使用されるクエリ用語を整理し適切なサイズにまとめ、効率性を向上させたり、レコードの重複を排除したり照合するレコードを検索しデータの品質を向上させるような機械学習が組み込まれています。

●セキュリティ管理の簡素化

AWS Lake Formationを使用すると「セキュリティ」「ガバナンス」「監査」といったポリシーを一つの場所で一元管理することが可能になります。
定義したポリシーはユーザーの分析アプリケーション全体へ適用でき、セキュリティーサービスやストレージサービス、分析・学習サービス全体へ実装されるため、一貫した実行とコンプライアンスを実現できます。

●データに対するセルフサービスアクセス

AWS Lake Formationでは利用可能なデータセットとグループのユーザーがアクセスできるかを説明する、データカタログを構築します。
これによってユーザーは適切な分析対象データセットを検索できるようになるため、生産性が向上します。
先述の通り、このカタログにも一貫性のあるセキュリティーが実行されますので、アナリストやデータサイエンティストは、好みの分析サービスを簡単に使用することができるようになります。

まとめ

AWS Lake Formationrと、それを説明するうえで欠かせない「ビックデータ」と「データレイク」について
ご紹介させていただきましたが、いかがでしたでしょうか?
私が調査した限りでは、権限管理やデータソース、セキュリティーを一元管理できるのがかなり強力なシステムではないかと感じました。
ビックデータを扱う案件でお目に掛かれたら、面白そうなシステムです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です