Dataproc vs. Dataflow vs. Dataprep: 何が違うのでしょうか?
現代では、”Data “という言葉には複数の意味があり、その抽出や解釈の仕方も様々です。このため、Google Cloud Platform(GCP)には、データ処理とウェアハウスの分野で3つの主要な製品があります。Dataproc、Dataflow、Dataprepは、さまざまなニーズに対応した大量のETLソリューションを顧客に提供しています。 Dataproc、Dataflow、Dataprepは、クラウド上のデータ処理ツールの新時代の3つの異なる部分です。これらは別々のタスクを実行しますが、互いに関連しています。 DataprocはGoogle Cloudの製品で、SparkやHadoop向けのData Science/MLサービスです。これに対し、Dataflowはデータのバッチ処理とストリーム処理を踏襲しています。データ処理のための新しいパイプラインを作成し、リソースはオンデマンドで生成または削除されます。一方、DataprepはUI駆動で、オンデマンドでスケールし、完全に自動化されています。 このDataproc、Dataflow、Dataprepの比較ブログでは、これら3つのデータ処理ツールが互いにどのように異なるかをお伝えします。 Dataproc vs. Dataflow vs. Dataprep: どっちが人気? 上記のGoogle Trendsのスクリーンショットから、DataflowがDataprocやDataprepよりも顧客の嗜好を大きくリードしていることが確認されます。 Dataprocとは?その特徴 2004年にGoogleがMapReduceの研究論文を発表したのが始まりです。それ以来、Hadoopはビッグデータの世界で重要な役割を果たすようになりました。 2014年になると、ApacheはオープンソースでクラスタコンピューティングフレームワークであるSparkをリリースしました。Sparkは、データ並列化でクラスタ群全体で作業するための堅牢なモジュールを備えています。まもなく、Apache Sparkは人気を博し、Hadoopの代替とみなされるようになりました。 多くの企業がSparkとHadoopを並行して使い始めましたが、その結果、オーバーヘッドが発生し、構成が混乱しました。その結果、複雑でコストがかかることが判明しました。 ビッグデータで特定のクラスタを使いたくなかったとしても、そのための費用が必要になる。GCPによれば、Spark/Hadoopのデプロイメント全体をフルマネージドサービスに移行することが可能です。機械的にクラスタを作成し、Dataflowでクラスタを管理します。 レポートシステムも組み込まれていますし、何よりオンデマンドでクラスタの停止や削除も可能です。 特徴 : データフローとは?その特徴 データを最適化する際に、ETLのような主要なデータ処理技術は省かれます。Googleによると、Dataflowは、データのバッチ処理とストリーム処理を管理・運用できる。 Dataflowの主な目的は、ビッグデータを簡素化することです。プログラミングと実行のフレームワークを統合し、並列化を実現する。Dataflowでは、クラスタデータがアイドル状態になっていることはありません。その代わり、クラスタは継続的に監視され、(使用中のアルゴリズムに従って)リモデリングされます。 Dataflowでは、内蔵されたすべての機能でApache Beamタスクが可能です。また、他のツールでは低速になりがちなGoogle Cloud Platform上で実行することができます。 特徴 : Dataprepとは?その特徴 Dataprepは、データの可視化不足、冗長なデータ、処理の遅さという3大問題を解決するために作られました。Dataprepは、ファイルをCSV、JSON、またはグラフィカルな表形式に変換することで、ユーザーがデータを視覚的に探索できるようにします。 Dataprepは、TBサイズのクラスタやデータセットを容易に扱うことができます。Dataprepは、BigQueryなどでさらに利用するためにデータを加工する媒体としてのみ使用されます。 データの利用規模が大きくなると、セキュリティに問題が生じることがあります。そこでGoogle Cloudは、Dataprepに独自のIdentity and Access Managementを提供しています。 特徴 : Dataproc、Dataflow、Dataprepの違いについて Dataprocはクラスタへの手動プロビジョニングをサポートし、Dataflowはクラスタへの自動プロビジョニングをサポートします。Dataprepは、将来の使用のためにデータを準備し、きれいにするのに役立ちます。 システムがHadoopに依存している場合は、Dataprocを選択するのが賢明です。Dataprocは、Hadoopの拡張サービスとして作られたものです。 ハンズオンのDev-opsアプローチを好むのであれば、Dataprocを選ぶとよいでしょう。一方、サーバーレスアプローチを好むのであれば、Datflowを選択します。一方、DataprepはUIドリブンです。 すでに以前から見てきたように、多くの人がDataprocやDataprepよりもDataflowを好んでいます。G2のユーザーレビューによると、DataprocはDatflowに比べて使いやすいという意見が多いようです。一方、Dataprepはデータ処理ツールとしてしか捉えられていない。 HadoopやSparkとの連携機能によるリアルタイムなデータ収集は、Dataprocの方が顕著です。データレイク、データ収集、クリーニング、クラウド、ワークロード処理については、データフローが高く評価されている。ビジュアル分析、データプリの助けを借りてのデータ加工は、そのプラスポイントとして見られています。 ポータビリティの面では、データフローはプログラミングと実行モデルを融合しています。このように、データの並列化を実現し、DataprocやDataprepよりも移植性が高い。 Dataproc、Dataflow、Dataprepの共通点 Dataproc、Dataflow、Dataprepを比較しながら、いくつかの共通点があることを紹介します: Dataproc、Dataflow、Dataprepの表形式比較。 […]
Dataproc vs. Dataflow vs. Dataprep: 何が違うのでしょうか? Read More »