フォーム読み込み中
Alibaba Cloudのデータ分析における考え方でも特に重視されているのが「リアルタイム分析」です。本稿では、その基本的な考え方のおさらいから、従来のバッチ処理分析との違い、そしてこれを簡単に実現するAlibaba Cloudプロダクトの活用方法について解説します。
Alibaba Cloudのデータ分析プラットフォームは、3つの設計思想「Live Data」「Fast Data」「Intelligent Data」に基づき、鮮度の高いデータを、素早く示唆のあるデータ変換することで、ビジネスの意思決定を加速させることを目指しています。この設計思想により、Alibaba Cloudのデータ分析プラットフォームは世界中の小売、製造、流通、通信、広告、金融、エネルギーなど、さまざまな業界に導入された実績があります。
例えば製造業では、工場の機械が不良品を出す時に、 ・不良品が発生してからそのデータを取得するまでにかかる時間 ・不良品を区別するためのデータ分析にかかる時間 ・データの分析結果から次のアクションまでにかかる時間 は、不良品が数百、数千となってくると単体では僅かな処理時間でも、トータルで大きな差が出てきます。
小売業では、お客さまの入店から退店の間に、プロモーションやレコメンド、割引セールなどを通じてお客さまと関わる機会を失わないように、顧客データと店舗内での行動をすぐに把握・分析する必要があります。
情報の価値は、時間の経過とともに失われていきます。リアルタイム分析は、情報が新鮮なうちに活用することで、顧客満足度や運用効率の向上などを実現し、収益を増やす手段となります。同時に待ち時間を大幅に短縮するので、工数を削減にも繋がります。
ここまで掲載したデモ画面のような分析・可視化が簡単に実現可能なAlibaba Cloudのユーザーは、多くがリアルタイムなビジネス・インサイト(ビジネスに必要な意思決定)によってビジネス上の大きなメリットを享受しています。
バッチ処理による従来の分析は「結果反省型」で、「何が起きたのか」を振り返るのに役立ちますが、次の結果が出るまで半日〜1日かかるのが一般的です。一方、リアルタイム処理による分析は、「今何が起きているのか」を即時可視化するため、顧客のその場の反応に応じて打ち手を決めるような、リアルタイムな洞察による新たな価値をもたらします。
データ分析は、収集→処理・蓄積→可視化という3つの段階で進めます。その方法は目的や用途、環境に応じてさまざまです。
しかし、データを可視化するまではさまざまな課題があります。 例えば、データ収集の段階では、オンプレサーバからパブリッククラウド、IoT、RDBMS、エッジ、OT(制御技術)までさまざまな場所で新しいデータが発生します。これらのデータにシームレスにアクセスできることが収集の第一歩ですが、簡単ではありません。
しかしそういったケースでも、Alibaba Cloudを使ったリアルタイム分析が役立ちます。これらのプロダクトを活用することで、既存のシステムを大きく変えることなく、シンプルにリアルタイム分析をスタートすることができます。データ分析の流れに沿って、各プロダクトをご紹介します。
まずはデータ収集で活躍するLog Serviceです。リアルタイム分析のスタートとなるデータ収集で最大の課題の1つは、バラバラの環境から、既存構成の変更や足跡を残すことなくデータを転送することです。Log Serviceはこれを解決します。
Log Serviceは30種類以上のさまざまなデータソースをサポートする、ログデータの一元管理サービス。最大の特長は、エージェントをインストールすることで、Alibaba Cloud以外の環境からもデータを収集することが可能な点です。
エッジからフォーマットを持たないsyslogなど大量かつ多様なデータをリアルタイムに収集し、Alibaba Cloudに接続するソリューションを提供し、データパイプラインの各ポイントの可視化を実現します。ゼロコーティングでデータを収集するため、既存システムの変更や追加作業は不要です。
シンプルですぐに可視化できるLog Serviceは、Alibaba Cloudのデータ分析プロダクトのPaaSとして中国や全世界を含めて300社以上の企業が導入しています。インフラ環境が複雑化したエンタープライズだけでなく、スタートアップやスモールスタートに適したプロダクトとしても高い評価を受けています。
データをリアルタイムに収集できたその先で待ち受ける次の課題は、大容量かつ複数のソースのデータに対し、1つも欠損や重複することなく処理をすることです。ここでRealtime Computeの出番です。
Realtime Computeは、フォールトトレランス戦略を使用して正確かつ1回限りの処理を保証(exactly once)するApache Flinkを、Alibaba CloudのApache Flinkコアコミッターたちが最適化しながら、Kubernetes上にデプロイしたフルマネージドサービスです。生成されたデータを低コストで分散ストリーミングし、リアルタイムでJOIN処理やデータ整形し、ターゲットテーブルへ出力します。
データをリアルタイムでテーブルへ格納したあと、最後に待ち受ける課題が、どのようにデータからビジネス上の利益(アリババの考え方では”Business Insight”)へ変換するかです。ここで、Elasticsearchが活用できます。
Alibaba CloudのElasticsearchは、検索・分析エンジンとしておなじみのElasticsearchとは少し異なります。アリババとElastic社とのパートナーシップにより、正規サービスと同じ機能を持ちながら、Alibaba Cloud Elasticsearchの独自機能として、パフォーマンス最適化、SQLによる分析、機械学習による分析などを実装しており、簡単に分析・可視化が実現できます。(※冒頭の製造業や小売業のデモも、Alibaba CloudのElasticsearchの独自機能で実装したものです。店舗内の顧客人流の可視化のために、店舗内のマップを独自で作ることもできます。)そしてこれらを正規版よりも低コストで利用することができるのが大きな魅力です。
従来のバッチ処理によるデータ分析に比べ、リアルタイム分析は、意思決定のスピードをはじめ、ビジネスに大きなメリットをもたらします。一方でリアルタイム分析は、技術的には比較的新しく、なかなか世の中に情報が多くない領域でもあります。しかしアリババはこれまで、自社のビジネスのさまざまなシーンでリアルタイム分析を利用したサービスを提供してきました。その技術とノウハウが詰まったAlibaba Cloudのプロダクトを活用することで、ハードルが高いと思われがちなリアルタイム分析も非常に容易に実現が可能です。ぜひ一度試してみてはいかがでしょうか。
Alibaba Cloudは中国国内でのクラウド利用はもちろん、日本-中国間のネットワークの不安定さの解消、中国サイバーセキュリティ法への対策など、中国進出に際する課題を解消できるパブリッククラウドサービスです。
ソフトバンク株式会社
クラウドエンジニアリング本部 PaaSエンジニアリング統括部
2019年からSBクラウドにJoin。収集、分散処理、ETL、検索、分析、機械学習基盤の構築、運用等を経て、現在分散系をメインとしたビッグデータとデータベースを得意・専門とするデータエンジニア。 AlibabaCloud MVP。
条件に該当するページがございません