フォーム読み込み中
こんにちは。ソフトバンクの結城です。
別記事でDatastream for BigQuery(MySQL)についてご紹介させていただきましたが、今回は続編でDatastream for BigQuery(PostgreSQL)についてご紹介します。※Datastream for BigQuery(MySQL)については「Google Cloud Datastream for BigQueryの紹介 (MySQL編)」よりご参照ください。
それでは、早速Datastream for BigQuery(PostgreSQL)の連携手順についてご紹介します。
■構成図
■利用プロダクト
※利用リージョンは共有で東京リージョン
・Cloud SQL(F)またはオンプレミスDB(Postgresql) ※事前にご準備ください
→ 別クラウドのDBをオンプレミスDBと見立てて設定いただくことも可能です。
・Datastream
・Big Query
■設定順
Cloud SQLとオンプレミスDBをDatastreamを使ってBig Queryと連携する設定手順を説明します。
※Cloud SQLとオンプレミスDBで設定が異なる箇所がありますので、異なる箇所については、別々に説明します。
1-1 ) Google Cloudコンソールにアクセスし、プロダクト一覧より「Datastream」を開きます。
1-2 ) 左ペイン「接続プロファイル」をクリックし、表示された画面で「プロファイルの作成」をクリックし、プロファイルの作成を行います。
1-3 ) PostgresqlとBig Queryのプロファイルを作成します。
1-4 ) 以下の設定値を参照し、プロファイルの作成を行います
■PostgreSQL → Datastreamの設定
■Datastream → Big Queryの設定
2-1 ) 左ペイン「ストリーム」をクリックし、表示された画面で「ストリームの作成」をクリックし、ストリームを作成します。
2-2 ) 表示された画面で以下の設定値を参照し、設定値を入力します。
2-3 ) DB側に設定を行います。Cloud SQLとオンプレミスDBでは設定が異なりますのでご注意ください。
<Cloud SQLの場合>
<オンプレミスDBの場合>
2-4 ) 1-4で作成したPostgreSQL → Datastreamのプロファイルを指定します。
2-5 ) Big Queryと連携するPostgreSQLのレプリケーションスロット、パブリケーションスロット、テーブル、スキーマを選択します。
2-6 ) 1-4で作成したDatastream → Big Queryのプロファイルを指定します。
2-7 ) データのロケーション、接頭辞を入力します。
2-8 ) 「検証を実行」し、連携できる状態か確認します。検証が完了したら「作成」をクリックし、ストリームの作成を行います。
PostgreSQL → Datastream → Big Queryの設定は以上です。
① PostgreSQLのテーブルに書き込まれたデータがBig Queryに反映される速度の確認
<操作>
・DBにログインし、insert文でテーブルにデータを追加します。
<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Big Queryコンソールにアクセスし、データが追加されたことを確認します。
<レプリケーション速度について>
※Cloud SQL / オンプレミス両環境で実施
DBにデータ追加後、Big Queryには即時レプリケーション(1分以内)されました。
② Big Queryと連携済みのPostgreSQLのデータを削除し反映される速度を確認
<操作>
・DBにログインし、delete文でテーブルからデータを削除します。
<確認方法>
DB側でselect文を実行し、データが削除されたことを確認します。データが削除されたことを確認した後、Big Queryコンソールにアクセスし、クエリを実行してデータが削除されたことを確認します。
<レプリケーション速度について>
※Cloud SQL / オンプレミスDB両環境で実施
DBのテーブルからデータ削除後、Big Queryには即時レプリケーション(1分以内)されました。
また、プレビューを実行するとnullのレコードが表示され、クエリを実行した場合にはデータが削除されていることが確認できます。
③ DBとの接続断を発生させたときの動作
<操作>
Datastreamを停止させて、オンプレDBでテーブルにinsert文でデータを追加します。
<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Datastreamを再開させます。Big Queryコンソールにアクセスし、データがレプリケーションされたことを確認します。
<レプリケーション速度について>
Datastreamが再開されたタイミングでレプリケーションがされました。時間としては1分以内で、データ欠損等はありませんでした。
今回はDatastream for Big Queryを使ってCloud SQLとオンプレミスのPostgreSQLを連携する方法をご紹介しました。
Cloud SQL、オンプレミスDBをDatastreamを使ってBig Queryとレプリケーションする設定はシンプル、かつ簡単で、パフォーマンスとしても、即時レプリケーションされるので、リアルタイムのデータ分析を行えると思います。Datastream for Big Query(MySQL)と比較すると設定箇所やソースDBの設定が多いですが、ソースDBに設定する内容はストリームの作成画面で詳細の手順が表示されるので、設定につまづくといったことは少ないと思います。
また、Datastream for Big Query(Postgresql)は一般提供(GA)提供されているので、本番環境でもご利用いただくことができるようになりました。PostgresqlをBig Queryを利用してデータ分析をされたい場合は是非、本記事をご参照ください。
条件に該当するページがございません