Redshiftについて概要を説明

Redshiftについて

Redshiftの概要について記載します。

Redshiftとは

AWSが提供しているデータウェアハウスの事です。

データウェアハウスとは業務情報を時系列データとして保管し、データ分析しやすくしたデータベースです。

Redshiftの主な特徴

・データレイクやAWSのサービスとの統合:データレイク(構造データや非構造データを格納するデータリポジトリ)への書き込みやクエリを簡単に実行できます。最大でエクサバイト規模の構造化データ、半構造化データ、非構造化データはS3 で保存しつつ、高度に構造化されたデータはRedshiftの方に保存するといったデータレイクの構築が可能です。また、PostgreSQLとの互換を持つため、Amazon RDS for PostgreSQLおよびAurora PostgreSQLとの連携も可能です。

・パフォーマンス効率:RA3インスタンスというインスタンスを使用する事で他のクラウドデータウェアハウスの3倍のパフォーマンスを実現可能です。ギガバイトからペタバイト規模のデータセットに対しての高速なクエリ実行や、列指向ストレージ、データ圧縮、ゾーンのマッピングなどの技術によって、クエリ実行に必要なI/Oの量を削減できます。圧縮技術としてはLZO、Zstandardなどの標準のエンコーディングや、数値、日付/時刻型向け専用のAZ64などを提供しています。

・スケーラブル:容量の自動追加で最大8ペタバイトの圧縮データをサポートしており、Amazon S3にあるペタバイト規模のデータに対してクエリ実行でき、S3をデータレイクとして使用する事で無制限にデータを保存可能、クエリの並列処理も無制限に実行する事ができます。

・コスト効率:従量課金制での支払いになり、コンピューティングとストレージ料金を個別に払う方法や、リザーブドインスタンスでの1年または3年契約で最大75%コスト削減する方法など、様々な支払いのバリエーションが用意されています。また、急な負荷処理などで一時的に容量追加し並列処理する際に同時実行スケーリングという処理がされるのですが、1 日あたり最大 1 時間の無料同時実行スケーリングクレジットが加算され最大30時間の無料同時実行スケーリングクレジットを獲得できるため、急な負荷処理が発生した際もほとんどコストの心配をする必要がありません。

・管理が容易:自動バックアップ、障害のあるドライブの自動レプリケート、コンソールによるクエリの可視化など一般的なメンテナンスタスクが自動化されています。

・セキュリティ:通信中データはSSLで保護、保管中データはAES−256暗号化を有効化できます。ネットワークに対してはVPC(Virtual Private Cloud )の設定でファイアウォールルールを設定可能です。AWS CloudTrail(ユーザーアクティビティと API 使用状況を監査する機能)と統合されているため、Redshift の API コールをすべて監査できます。Redshift での SQL 操作 (データウェアハウスへの接続試行、クエリ、変更) もすべてログに記録されます。

Redshiftの主な機能

RA3、DC2、DS2Redshiftでは3つのインスタンスタイプを選択し、利用する事が可能です。
RA3:大容量のSSD (Solid-State Disk) を使用した自動スケーリングが可能な高パフォーマンスのデータウェラハウスが実現可能です。大容量、高パフォーマンスで高額なインスタンスです。
DC2(Dense Compute):ローカルSSD (Solid-State Disk) を使用してきわめて高パフォーマンスのデータウェアハウスを作成できます。他インスタンスよりストレージ要領は少なくなりますが、高パフォーマンスで安価なインスタンスです。
DS2(Dense Storage):3 年契約のリザーブドインスタンスを購入すれば、ハードディスクドライブ (HDD) を使用して、低コストで大規模なデータウェアハウスを作成できます。ストレージ要領が大きく、他のインスタンスに比べると低パフォーマンスですが、一番安価に使用する事ができます。

マテリアライズドビューテーブルに対するSQLの計算結果をキャッシュしておく機能です。大規模なテーブルに対して複雑なクエリを実行する際に、処理に時間がかかったり、コストがかかります。キャッシュしておく事で処理を高速化しコストを削減できます。

Amazon Redshift SpectrumデータをAmazon S3に置いたままロードせずにAmazon Redshiftから直接クエリ出来る機能です。自動でスケーリングし、クエリの需要に基づいて、数千のシンスタンスを使用して並列処理する事が可能です。

最後に

ビックデータの活用は世の中で急速に広がっているため、他のデータウェアハウスと比較し非常に安価で高速に動作するRedshiftは、今後さまざまな業種で必須のテクノロジーになるのではないかと思いました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です