Azureでデータの連携を取る方法

1.はじめに

現代のビジネスニーズにおいて、AzureやAWS、いずれかのクラウドサービスを利用している企業や、オンプレミス環境とクラウド環境を連携させたハイブリッドクラウドとしてデータの連携を図っている企業。そして異なるクラウドサービス同士をVPN接続で繋ぐマルチクラウドでデータの連携を図っているなど、さまざまな方法が存在します。
しかし、会社の資産ともいえる「データ」をどこに保存するか、どう連携していくかなどの問題が浮上してきます。当記事では、クラウドサービスの1つである「Azure」が持つ「Azure Data Factory」という機能を用いた連携について展開します。

2.Azureでのデータ連携

1.「Azure Data Factory」を活用

「Azure Data Factory」とは一般的には「ETL(Extract:抽出/Transform:変換/Load:読み込み)」同様、あらゆるデータソースからデータのコピーや移動、フォーマットの変換、加工処理を担うことを定義とし、利用者が記したスケジュールに沿ってそれら処理を実行する「データ統合サービス」になります。PaaSをベースとした従量課金をデータ処理にあてがっているため、サーバー、ミドルウェアの構築、維持や管理の運用に対する手間がかかりません。また処理能力の拡大・縮小はAzure Portalから操作できます。
「Azure Data Factory」を活用する利点、それはこの機能が持つ特徴にあります。それはAzure内にあるリソースのみならずAzure外部にあるデータソースとも連携がとれるという特徴を有しています。オンプレミス環境側にあるデータ、Azure以外のクラウドサービス「AWS」や「Google Cloud」などに存在するデータといった環境をまたいで連携が取れます。つまり、ハイブリッドクラウド、マルチクラウドとして「Azure Data Factory」を利用していくことが可能となります。

2.「Azure Data Factory」の有無でデータの連結が変わる

「Azure Data Factory」はAzureがもつ「データ統合サービス」であり、各企業はこの機能を活用してあらゆる種類のデータソースを管理・連結させています。
データソースでは、「オンプレミス/クラウド内のデータソース」や「構造化が成されたもの/されていないもの」あるいは「半構造化が成されたもの」などさまざまなソースが存在します。「Azure Data Factory」ではそれらデータソースを管理しETLを自動的に実行します。この機能を使用する/使用しないのいずれかにおいて、以下のような結果となりえます。

  • 使用する場合
  • 「Azure Data Factory」を使用した場合、データパイプラインによる「データアクティビティ」を通してオンプレミス/クラウドの両環境中にあるデータソースをストアからクラウドに一元化し、データストアへと移動を行ってより詳しくデータの分析を行います。
    例としては「Azure Data Lake Storage」を利用してデータの収集を行った後、「Azure Data Lake Analytics」を利用してデータ経間処理の実施を行うことができます。

  • 使用しない場合
  • 「Azure Data Factory」を使用していない場合、データ移動のコンポーネントの構築、もしくはデータソースと合わせて処理を統合できるカスタムサービスの作成のいずれかを行う必要があります。これらを実行の運用において、システム統合と保守といった面でコストがかかる上、制御機能の用意ができない等の問題が発生します。

3.データ連携のあり方を変えた存在

1.iPaaS

「データの連携」において従来であれば「Azure DataFactory」のようなETLツールを活用して実行をしてきました。他の方法としてESBといった共通のプラットフォームに接続することで相互関係を形成して、データの連携を図ってきました。しかし、このままの運用ではオンプレミス環境と複数台のクラウドが混在し、それぞれが複雑に絡み合った「複雑な状態」を形成する羽目になります。
オンプレミスとクラウドの「ハイブリッド環境」中にあるデータやアプリケーションの連携問題解決として登場したのが「iPaaS」と呼ばれるクラウドサービスがあります。
「iPaaS」とは、個々のあるいは複数の組織内に存在するオンプレミス/クラウドの、プロセスやサービス、アプリケーション、データ同士を連結させたり統合させたりできるサービスになります。また、正確にはオンプレミスとSaaSサービスの連携、もしくはSaaS同士の連携を組みことができます。
またAzureでは「Azure Logic Apps」というクラウドサービスが「iPaaS」の位置づけとなっています。

2.「iPaaS」が注目されるわけ

「iPaaS」がサービスとして提供していることは、異なるもの(アプリケーションやシステムなど)同士のデータを連携、統合できることに大きな利点とそのサービス内容に起因します。
まず「iPaaS」が可能とする「統合」や「連結」というワードです。急速なクラウドの進展・普及によって「統合」という作業そのものが一時複雑化しました。とはいえ、専門とするエンジニアにかかれば統合の管理は可能ですが、それに割く人員と費用そして時間にコストがかかっていました。しかし、「iPaaS」の登場により、作業効率とコストが大幅に改善されました。「iPaaS」はツールセットというより「ソリューション」というものになります。それゆえにこれまで抱えていた問題解決の一策として導入されました。
次に「iPaaS」には以下のようなメリットがあります。

  • 過去データの有効利用
  • 「クラウドサービス」が普及する以前は「オンプレミス環境」でシステムを利用していたことにあります。多くの場合がシステム単体で完結するものであったゆえに、会社資産となるデータもそのシステムでしか活用できないのが現状でした。そこからクラウドの普及と進展が始まり多くの企業が切り替えを行いました。ここで問題になるのが「オンプレミス環境上に取り残された大量のデータ」です。手動でチマチマ移動させては時間と効率性が悪く、かといって簡単に捨てるわけにもいきません。しかし、「iPaaS」の登場により、オンプレミス環境からのデータ移動が簡単に行え、無駄なコストを割く必要がなく、過去データの有効利用ができます。つまり、「iPaaS」はシステムとデータを繋ぐ「架け橋」と言えます。

  • SaaS同士でのシステムやデータの連携
  • 各部署によって異なるSaaSサービスを利用している場合、サービスが異なればもちろんのことながらデータ管理のやり方も異なります。しかし、「iPaaS」は異なるもの同士をつなげる「架け橋」であるため、異なるもの同士を統合、連結を行うと同時に、混在することができる環境の構築をも「iPaaS」は行ってくれます。

4.まとめ

クラウドサービスの普及に伴い、会社資産であるデータを取り扱うにあたって、作業する環境が異なれば開くことすらままなりませんでした。しかし、「iPaaS」の登場によって異なる環境、システムの統合が行われることによって、過去データも有効に活用できるようになりました。
同様に「Azure Data Factory」では、ハイブリッドクラウド/マルチクラウドのようなクラウド間での垣根を超えてのデータ統合および連結処理が行えます。
しかし、いずれもメリットだらけというわけではありません。必ず裏には「デメリット」というモノが存在します。これとどう向き合って作業運用に導入するかを検討したうえで、導入することで効率性は飛躍的に向上します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です