Google Cloud Datastream for BigQueryの紹介 (PostgreSQL編)

2023年5月22日掲載

こんにちは。ソフトバンクの結城です。

別記事でDatastream for BigQuery(MySQL)についてご紹介させていただきましたが、今回は続編でDatastream for BigQuery(PostgreSQL)についてご紹介します。※Datastream for BigQuery(MySQL)については「Google Cloud Datastream for BigQueryの紹介 (MySQL編)」よりご参照ください。

それでは、早速Datastream for BigQuery(PostgreSQL)の連携手順についてご紹介します。

Datastream for BigQueryの連携手順

■構成図

■利用プロダクト
※利用リージョンは共有で東京リージョン
・Cloud SQL(F)またはオンプレミスDB(Postgresql) ※事前にご準備ください
　→ 別クラウドのDBをオンプレミスDBと見立てて設定いただくことも可能です。

・Datastream

・Big Query

■設定順
Cloud SQLとオンプレミスDBをDatastreamを使ってBig Queryと連携する設定手順を説明します。
※Cloud SQLとオンプレミスDBで設定が異なる箇所がありますので、異なる箇所については、別々に説明します。

■1. プロファイルの作成

1-1 ) Google Cloudコンソールにアクセスし、プロダクト一覧より「Datastream」を開きます。

1-2 ) 左ペイン「接続プロファイル」をクリックし、表示された画面で「プロファイルの作成」をクリックし、プロファイルの作成を行います。

1-3 ) PostgresqlとBig Queryのプロファイルを作成します。

1-4 ) 以下の設定値を参照し、プロファイルの作成を行います
■PostgreSQL → Datastreamの設定

■Datastream → Big Queryの設定

■2. ストリームの作成

2-1 ) 左ペイン「ストリーム」をクリックし、表示された画面で「ストリームの作成」をクリックし、ストリームを作成します。

2-2 ) 表示された画面で以下の設定値を参照し、設定値を入力します。

2-3 ) DB側に設定を行います。Cloud SQLとオンプレミスDBでは設定が異なりますのでご注意ください。

<オンプレミスDBの場合>

2-4 ) 1-4で作成したPostgreSQL → Datastreamのプロファイルを指定します。

2-5 ) Big Queryと連携するPostgreSQLのレプリケーションスロット、パブリケーションスロット、テーブル、スキーマを選択します。

2-6 ) 1-4で作成したDatastream → Big Queryのプロファイルを指定します。

2-7 ) データのロケーション、接頭辞を入力します。

2-8 ) 「検証を実行」し、連携できる状態か確認します。検証が完了したら「作成」をクリックし、ストリームの作成を行います。

PostgreSQL → Datastream → Big Queryの設定は以上です。

■動作確認

① PostgreSQLのテーブルに書き込まれたデータがBig Queryに反映される速度の確認

<操作>
・DBにログインし、insert文でテーブルにデータを追加します。

<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Big Queryコンソールにアクセスし、データが追加されたことを確認します。

<レプリケーション速度について>
※Cloud SQL / オンプレミス両環境で実施
DBにデータ追加後、Big Queryには即時レプリケーション(1分以内)されました。

② Big Queryと連携済みのPostgreSQLのデータを削除し反映される速度を確認

<操作>
・DBにログインし、delete文でテーブルからデータを削除します。

<確認方法>
DB側でselect文を実行し、データが削除されたことを確認します。データが削除されたことを確認した後、Big Queryコンソールにアクセスし、クエリを実行してデータが削除されたことを確認します。

<レプリケーション速度について>
※Cloud SQL / オンプレミスDB両環境で実施
DBのテーブルからデータ削除後、Big Queryには即時レプリケーション(1分以内)されました。
また、プレビューを実行するとnullのレコードが表示され、クエリを実行した場合にはデータが削除されていることが確認できます。

③ DBとの接続断を発生させたときの動作　

<操作>
Datastreamを停止させて、オンプレDBでテーブルにinsert文でデータを追加します。

<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Datastreamを再開させます。Big Queryコンソールにアクセスし、データがレプリケーションされたことを確認します。

<レプリケーション速度について>
Datastreamが再開されたタイミングでレプリケーションがされました。時間としては1分以内で、データ欠損等はありませんでした。

さいごに

今回はDatastream for Big Queryを使ってCloud SQLとオンプレミスのPostgreSQLを連携する方法をご紹介しました。

Cloud SQL、オンプレミスDBをDatastreamを使ってBig Queryとレプリケーションする設定はシンプル、かつ簡単で、パフォーマンスとしても、即時レプリケーションされるので、リアルタイムのデータ分析を行えると思います。Datastream for Big Query(MySQL)と比較すると設定箇所やソースDBの設定が多いですが、ソースDBに設定する内容はストリームの作成画面で詳細の手順が表示されるので、設定につまづくといったことは少ないと思います。

また、Datastream for Big Query(Postgresql)は一般提供(GA)提供されているので、本番環境でもご利用いただくことができるようになりました。PostgresqlをBig Queryを利用してデータ分析をされたい場合は是非、本記事をご参照ください。