HBaseとCassandraのハイブリット機能を持つLindormでActive-Activeマルチゾーンアプリケーションを構築してみる

2023年1月16日掲載

本記事では、Alibaba Cloud Lindormのマルチゾーン（Cross Zone）を使って、それぞれのZoneで稼働するアプリケーションを構築してみました。

Alibaba Cloud LindormはAlibaba Cloudが提供するCloud-Native Multi-Modal Databaseです。このLindormにはCassandraと同じエンジンを搭載しており、CassandraのようにActive-Active Multi Region/Zoneを展開することができます。
※2022/11/29時点で国際サイトのLindormはマルチゾーン（Cross Zone）展開のみサポート

1.全体構成図

2023/01/16時点で、Lindormマルチゾーン展開はシンガポール、インドネシア、バンコク、深圳、香港、杭州、上海、北京、河北省リージョンにて利用することができます。今回はシンガポールリージョンにてマルチゾーン展開デプロイしながら、Lindorm CLI、HBase API、Cassandra CQLを通じてその中のワイドテーブルエンジンを操作してみます。加えて、異なるZoneの間で同時に異なるデータを処理することによる、テーブルの整合性をチェックします。

2.Lindormマルチゾーンのアーキテクチャについて

Lindormのマルチゾーンアーキテクチャについて説明します。全体像としては次の図の通りになります。

基本的には3つ以上のZoneを使って、マルチゾーン展開をします。
Lindormインスタンスのワイドテーブルを分割したそれぞれのPartitionは、それぞれのZoneに独立したReplicaを持ちます。LindormでSQLやAPIアクセス等でデータのWrite/Read処理が発生する度にWALログ（Write-Ahead Logging、ログ先行書き込み）が発生しますが、このWALログはZone A/B/Cの共通基盤となるLindorm DFSを経由してZone CのDFSに保存されます。そのため、例えばZone Aが障害等なにかにより使えなくなった場合、このZone CのDFSに保存したデータは、Zone B上にてデータを素早く復元します。
Lindorm はマルチゾーン展開する際、分散合意アルゴリズムの一種である Replica consensus protocol を使って異なるZone間でのReplicaデータをリアルタイム同期するため、整合性を保つために最低限2つのReplicaのデータ、すなわち3つ以上のZoneが必要となります。

3.VPCとvSwitchの作成

マルチゾーンのLindormインスタンスを作成するために、各ゾーンの下に少なくとも1つのvSwitchを持つVPCインスタンスを構築する必要があります。

「Create VPC」ボタンをクリックして、VPC作成画面に入ります。
作成フォームに必要なVPC名を入力します。
作成フォームに必要なIPv4 CIDRブロックを入力します。
各ゾーンにvSwitchの設定を行い、IPv4 CIDRブロックの設定が正しいことを確認します。
「OK」ボタンをクリックし、操作を実行します。

完了すると、必要なVPCとvSwitchが準備されます。

4.マルチゾーンのLindormインスタンスを作成

Lindormコンソールに移動し、マルチゾーンのLindormインスタンスを作成します。

「Create」ボタンをクリックして、作成画面に入ります。
デプロイメント方法として、「Multi-Zone Deployment」を選択します。
前のステップで作成した特定のVPCとvSwitchを選択します。
ワイドテーブル・エンジンとログ・ノードを設定します。
「Buy Now」ボタンをクリックし、注文確認画面に移動します。
利用規約のチェックボックスにチェックを入れます。
「Activate Now」ボタンをクリックして、操作を実行します。

この後、「Creating」のステータスでインスタンスが取得されます。インスタンスの準備が整うまでしばらく時間がかかります。

ステータスが「Running」に変更されたら、次のステップでマルチゾーンLindormインスタンスの操作ができます。

インスタンスの詳細ページで、ノードとゾーンの情報を確認します。

5.Lindormインスタンスを設定

今回は、同じVPC下のECSからLindormインスタンスに接続します。接続方法は「Database Connection」メニューで接続情報を確認することができます。
もし、VPC外からの接続としてパブリックエンドポイントが必要な場合は、「Apply for Public Endpoint」ボタンをクリックしながら接続環境を準備する必要があります。

6.ホワイトリストの設定

接続作業を始める前に、接続セキュリティのために、ECSインスタンスのイントラネットアドレスを「Access Control」ページのホワイトリストに追加しておきます。

「Modify Whitelist」ボタンをクリックすると、設定画面が表示されます。
ホワイトリストに予想されるIPアドレスを追加します。ECSインスタンスのイントラネットIPアドレスを使用します。
「OK」ボタンをクリックして、操作を実行します。

接続先のIPアドレスをホワイトリストに登録することで、接続できるようになります。

7.LindormTable SQLを使用してワイドテーブル・エンジンに接続

LindormTableへの接続は、SQLベースであれば、Java、Python、Goなどの複数のプログラミング言語用のLindorm SDKをサポートしています。複数のプログラミング言語用のLindorm SDKを使うことで、LindormTableが提供する全ての機能を利用することができます。

例として、Lindorm CLIを使ってワイドテーブルエンジンに接続し、そこからLindorm Table SQLを実行する方法を説明します。

同じVPC内に用意されたECSインスタンスに接続します。

8.HBase APIを使用してワイドテーブル・エンジンに接続

LindormはApache HBaseと互換性があり、HBase APIでワイドテーブルエンジンに接続する方法には、Alibaba Cloudが提供するApsaraDB for HBase SDKやHBaseue Shellなどを使います。

9.Cassandra Pythonクライアント・ドライバを使用して、CQL上でLindormTableに接続

Lindormは、Cassandraのエンジンも搭載されており、Cassandraも高い互換性を持ちます。Cassandraクライアントドライバを使用して、C++、Python、Nodejs、Goといった複数の言語でワイドテーブルエンジンに接続することができます。ここではPythonを例にとって説明します。

CassandraのPythonクライアントドライバをpipコマンドでインストールします。

pip install cassandra-driver

Lindorm CQLの説明によれば、テーブルの一貫性には、eventual、timestamp、basic、およびstrongの4つのパラメータ値があります。

今回、整合性のタイプがEventual consistency（結果整合性）とStrong consistency（強整合性）なので、lindorm_cassandra.pyというPythonスクリプトを使ってeventualおよびstrong用のテーブルを用意します。詳細については、ヘルプドキュメントを参照してください。

以下はlindorm_cassandra.pyのサンプルコードです。接続情報やユーザー情報などはご自身の状況に合わせて更新してください。

10.補足事項

10-1. Lindorm CLIで "context deadline exceeded "エラーを修正する方法

Lindorm CLIでLindorm Tableに接続しようとした際にこのエラーが発生した場合、Lindormインスタンスのホワイトリストを確認します。操作ユーザーのIPアドレスをホワイトリストに追加すると、エラーは解消されるはずです。

10-2. Lindorm CLIでSQLエラーを修正するには？

他のSQLコマンドツールと同じです。エラーが発生したら、エラーメッセージを確認し、SQL文の修正を行う必要があります。

以下は、SQL文のエラーの例です。

予約語やキーワードをテーブル名やカラム名として使用します。

ステートメントで間違ったデータ型を使用します。

10-3. Cassandra Pythonクライアント・ドライバのインストールで発生するエラーを修正するには？

Cassandra Pythonクライアント・ドライバのインストールで以下のエラーが発生した場合は、まずpipコマンドでCythonを手動でインストールすることができます。その後、Cassandra Pythonクライアント・ドライバーのインストール・プロセスが正常に実行されるはずです。

Building wheels for collected packages: cassandra-driver, geomet
  Running setup.py bdist_wheel for cassandra-driver ... error
  Complete output from command /usr/bin/python -u -c "import setuptools, tokenize;__file__='/tmp/pip-build-OQBIQ5/cassandra-driver/setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" bdist_wheel -d /tmp/tmpwXzN7gpip-wheel- --python-tag cp27:
  Couldn't find index page for 'Cython' (maybe misspelled?)

11.さいごに

本記事ではLindormでマルチゾーン展開およびActive-Activeアプリケーションのマルチゾーン構築、およびテーブルの整合性についてをご紹介しました。

LindormはHBaseとCassandraのエンジンが搭載されており、HBaseとして最大数千PB数百億レコードと数百万のカラムを持つWide-Columnテーブルで、RedisのようなIn-Memory型Key-Value Databaseと同じ処理速度でデータを処理できるリアルタイムクエリ機能を持ちます。そのうえ、Cassandraとして常時稼働することをコンセプトとしたActive-Activeアーキテクチャにより全てのZoneが持つデータは常に複製されるため、障害が発生しても100ms以内に復旧するため、データが失われることなくサービスを提供し続けることができます。それだけにLindormはHBaseとCassandraのハイブリットデータベースといっても過言ではないぐらい魅力的です。また、Apache HBaseの弱点としてマスターノードがダウンするとクラスタ全体にアクセスできなくなる問題をLindormは完全に排除、およびCassandraの性格上クラスタ全体のリバランスは非サポートに対しLindormはサポートしているという点は非常に大きいです。

CAP定理でApache HBase がCAモデル（一貫性・可用性）、CassandraがAPモデル（可用性・分断耐性）に対し、LindormはCAP全てを達成しているデータベースなので、もしSQL/NoSQL問わず CAP定理によるデータベースの性質で悩んでる方には本記事を参考に頂ければ幸いです。

NoSQLってなに？Alibaba Cloud, AWS, Azure, Google CloudのNoSQLサービスを比べてみました

Alibaba Groupを幅広く支えるCloud Native Multi-Model DatabaseのAlibaba Cloud Lindormについて

Alibaba Cloud Lindorm MLを使って時系列データの異常検知をしてみる

HBaseとCassandraのハイブリット機能を持つLindormでActive-Activeマルチゾーンアプリケーションを構築してみる

関連記事リンク

関連記事リンク

1.全体構成図

関連記事リンク

2.Lindormマルチゾーンのアーキテクチャについて

関連記事リンク

3.VPCとvSwitchの作成

4.マルチゾーンのLindormインスタンスを作成

5.Lindormインスタンスを設定

6.ホワイトリストの設定

7.LindormTable SQLを使用してワイドテーブル・エンジンに接続

関連記事リンク

関連記事リンク

関連記事リンク

関連記事リンク

8.HBase APIを使用してワイドテーブル・エンジンに接続

関連記事リンク

関連記事リンク

関連記事リンク

9.Cassandra Pythonクライアント・ドライバを使用して、CQL上でLindormTableに接続

関連記事リンク

10.補足事項

10-1. Lindorm CLIで "context deadline exceeded "エラーを修正する方法

10-2. Lindorm CLIでSQLエラーを修正するには？

10-3. Cassandra Pythonクライアント・ドライバのインストールで発生するエラーを修正するには？

11.さいごに

関連記事

関連サービス

Alibaba Cloud

MSPサービス

＼業務課題をデジタルで支援／

おすすめの記事

HBaseとCassandraのハイブリット機能を持つLindormでActive-Activeマルチゾーンアプリケーションを構築してみる

関連記事リンク

関連記事リンク

1.全体構成図

関連記事リンク

2.Lindormマルチゾーンのアーキテクチャについて

関連記事リンク

3.VPCとvSwitchの作成

4.マルチゾーンのLindormインスタンスを作成

5.Lindormインスタンスを設定

6.ホワイトリストの設定

7.LindormTable SQLを使用してワイドテーブル・エンジンに接続

関連記事リンク

関連記事リンク

関連記事リンク

関連記事リンク

8.HBase APIを使用してワイドテーブル・エンジンに接続

関連記事リンク

関連記事リンク

関連記事リンク

9.Cassandra Pythonクライアント・ドライバを使用して、CQL上でLindormTableに接続

関連記事リンク

10.補足事項

10-1. Lindorm CLIで "context deadline exceeded "エラーを修正する方法

10-2. Lindorm CLIでSQLエラーを修正するには？

10-3. Cassandra Pythonクライアント・ドライバのインストールで発生するエラーを修正するには？

11.さいごに

関連記事

関連サービス

Alibaba Cloud

MSPサービス

＼ 業務課題をデジタルで支援 ／

おすすめの記事

＼業務課題をデジタルで支援／