Amazon Web Services(AWS)は、クラウドコンピューティングおよびビッグデータという両分野において、圧倒的な存在感を示しています。前回のブログ記事では、AWS GlueとEMRの主な違いについて解説しました。
今回のブログでは、AWS Data PipelineとAWS Glueを比較します。AWS Glueは現存するETLツールの中でも特に優れたツールの一つであり、しばしばData Pipelineと比較検討されます。
これら2つのツールは、その処理プロセスや機能の仕組みにおいて違いがありますが、本記事ではETL(抽出・変換・格納)という観点から両者を比較していきます。
AWS Data Pipeline vs. AWS Glue:徹底比較
AWS Data Pipelineとは何ですか?
AWS Data Pipelineは、データ移動の自動化を提供するAWSのサービスです。また、最初のプロセスが正常に完了した後にのみ次のプロセスが開始されるよう保証し、手動による介入を不要にします。ビッグデータの分野においては、「データ転送(Data Transfer)」のカテゴリに分類されます。
AWS Glueとは何ですか?
AWS Glueは、データセットの作成、変換、およびその後のロード(読み込み)を容易にするAWSのサービスです。主にETL(抽出・変換・ロード)ツールとして機能します。ビッグデータの分野においては、「データカタログ(Data Catalog)」のカテゴリに分類されます。
データソース
データ転送ツールであるAWS Data Pipelineでは、新たなデータソースを独自に作成することはできません。あらかじめ定義されたデータソースを利用して作業を進める必要があります。
一方、AWS Glueでは、AWS環境と同期していないデータに接続するためのカスタムソースを作成することが可能です。
データのバックアップ/複製タイプ:
AWS Data Pipelineでは、タイムスタンプフィールドを活用して、データのバックアップや複製を行うことができます。これにより、開発者はより高度な処理段階に向けたデータベースを構築することが可能になります。
AWS Glueの場合、データキャプチャの手法を用いることでデータを複製し、複製されたデータの変換処理をより容易に行うことができます。
コンプライアンス要件とセキュリティ認証
AWS Data Pipelineは、HIPAAやGDPRといったセキュリティ要件には準拠していません。しかし、だからといって、その利用が違法な行為にあたるわけではありません。
これは単に、コンプライアンスに関するチェックリストや必要な各種パラメータの管理を、ツールを通じて直接行うのではなく、利用者側で独自に管理する必要があるということを意味しています。
一方、AWS GlueはHIPAAおよびGDPRの認証を取得しています。そのため、監査報告書の提出が求められた際も、ツールから直接データを抽出することが可能です。これにより、煩雑な手間をかけることなく、関係当局に対して報告書を提出することができます。
料金体系
AWS Data PipelineとAWS Glueでは、それぞれ異なる料金モデルが採用されています。AWS Data Pipelineは「アクティビティ」単位で課金されるのに対し、AWS Glueは単純な時間単位で課金されます。
AWS Data Pipelineは、お客様の要件に合わせて2種類の支払い方法から選択して利用することができます。
これらのモデルは、それぞれ「低頻度モデル」および「高頻度モデル」と呼ばれています。低頻度モデルの料金は月額約0.6ドルですが、高頻度モデルの料金はアクティビティ1件あたり月額約1ドルとなります。
また、このツールを試用して理解を深めるために、無料利用枠(Free Tier)を活用することも可能です。
一方、AWS Glueについては、1 DPU(データ処理ユニット)あたり1時間につき約0.44ドルの料金が発生します。これは、1日あたりに換算すると約21ドルのコストに相当します。なお、AWS Glueにもいくつかの無料特典が用意されています。最初の100万個のオブジェクト保存は無料となるほか、最初の100万回のアクセスについても無料で利用することができます。
運用方法
AWS Data Pipelineでは、JSONまたはAPIを通じて、データ変換のスキーマを作成することができます。また、SQL、DynamoDB、およびRedshiftを介してデータを接続することも可能です。
一方、AWS Glueには、あらかじめ定義された組み込みの変換機能が用意されています。開発者は、AWS Glue独自の構造に縛られないPythonベースのコードを用いて、容易に新しいファイルを作成することができます。
AWS Glueもまた、SQL、DynamoDB、およびRedshiftをサポートしています。しかし、その対応範囲はこれらにとどまらず、Amazon S3やAmazon RDSにも及んでいます。
主なポイント:
上記の点から、AWS Data PipelineとAWS Glueはそれぞれ異なる目的で開発されたツールであるものの、その目指すゴールは極めて類似していることがわかります。
どちらのツールにも、それぞれ長所と短所があります。どちらがご自身の要件により適しているかを判断するのは、最終的にはお客様ご自身と、そのプロジェクトの具体的な要件次第となります。




