Google Cloud Datastream for BigQueryの紹介 (PostgreSQL編)

 

2023年5月22日掲載

キービジュアル

こんにちは。ソフトバンクの結城です。

別記事でDatastream for BigQuery(MySQL)についてご紹介させていただきましたが、今回は続編でDatastream for BigQuery(PostgreSQL)についてご紹介します。※Datastream for BigQuery(MySQL)については「Google Cloud Datastream for BigQueryの紹介 (MySQL編)」よりご参照ください。

それでは、早速Datastream for BigQuery(PostgreSQL)の連携手順についてご紹介します。

目次

Datastream for BigQueryの連携手順

■構成図

■利用プロダクト
※利用リージョンは共有で東京リージョン
・Cloud SQL(F)またはオンプレミスDB(Postgresql)  ※事前にご準備ください
 → 別クラウドのDBをオンプレミスDBと見立てて設定いただくことも可能です。

・Datastream

・Big Query
 

■設定順
Cloud SQLとオンプレミスDBをDatastreamを使ってBig Queryと連携する設定手順を説明します。
※Cloud SQLとオンプレミスDBで設定が異なる箇所がありますので、異なる箇所については、別々に説明します。

 

■1. プロファイルの作成


1-1 ) Google Cloudコンソールにアクセスし、プロダクト一覧より「Datastream」を開きます。

1-2 ) 左ペイン「接続プロファイル」をクリックし、表示された画面で「プロファイルの作成」をクリックし、プロファイルの作成を行います。


1-3 ) PostgresqlとBig Queryのプロファイルを作成します。


1-4 ) 以下の設定値を参照し、プロファイルの作成を行います
■PostgreSQL → Datastreamの設定



■Datastream → Big Queryの設定




■2. ストリームの作成

2-1 ) 左ペイン「ストリーム」をクリックし、表示された画面で「ストリームの作成」をクリックし、ストリームを作成します。

2-2 ) 表示された画面で以下の設定値を参照し、設定値を入力します。


2-3 ) DB側に設定を行います。Cloud SQLとオンプレミスDBでは設定が異なりますのでご注意ください。

<Cloud SQLの場合>

 

<オンプレミスDBの場合>


2-4 ) 1-4で作成したPostgreSQL → Datastreamのプロファイルを指定します。


2-5 ) Big Queryと連携するPostgreSQLのレプリケーションスロット、パブリケーションスロット、テーブル、スキーマを選択します。


2-6 ) 1-4で作成したDatastream → Big Queryのプロファイルを指定します。


2-7 ) データのロケーション、接頭辞を入力します。


2-8 ) 「検証を実行」し、連携できる状態か確認します。検証が完了したら「作成」をクリックし、ストリームの作成を行います。

PostgreSQL → Datastream → Big Queryの設定は以上です。



■動作確認

① PostgreSQLのテーブルに書き込まれたデータがBig Queryに反映される速度の確認

<操作>
・DBにログインし、insert文でテーブルにデータを追加します。

<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Big Queryコンソールにアクセスし、データが追加されたことを確認します。

<レプリケーション速度について>
※Cloud SQL / オンプレミス両環境で実施
DBにデータ追加後、Big Queryには即時レプリケーション(1分以内)されました。

 

② Big Queryと連携済みのPostgreSQLのデータを削除し反映される速度を確認

<操作>
・DBにログインし、delete文でテーブルからデータを削除します。

<確認方法>
DB側でselect文を実行し、データが削除されたことを確認します。データが削除されたことを確認した後、Big Queryコンソールにアクセスし、クエリを実行してデータが削除されたことを確認します。

<レプリケーション速度について>
※Cloud SQL / オンプレミスDB両環境で実施
DBのテーブルからデータ削除後、Big Queryには即時レプリケーション(1分以内)されました。
また、プレビューを実行するとnullのレコードが表示され、クエリを実行した場合にはデータが削除されていることが確認できます。

 

③ DBとの接続断を発生させたときの動作 

<操作>
Datastreamを停止させて、オンプレDBでテーブルにinsert文でデータを追加します。

<確認方法>
DB側でselect文を実行し、データが追加されたことを確認します。データが追加されたことを確認した後、Datastreamを再開させます。Big Queryコンソールにアクセスし、データがレプリケーションされたことを確認します。

<レプリケーション速度について>
Datastreamが再開されたタイミングでレプリケーションがされました。時間としては1分以内で、データ欠損等はありませんでした。

さいごに

今回はDatastream for Big Queryを使ってCloud SQLとオンプレミスのPostgreSQLを連携する方法をご紹介しました。

Cloud SQL、オンプレミスDBをDatastreamを使ってBig Queryとレプリケーションする設定はシンプル、かつ簡単で、パフォーマンスとしても、即時レプリケーションされるので、リアルタイムのデータ分析を行えると思います。Datastream for Big Query(MySQL)と比較すると設定箇所やソースDBの設定が多いですが、ソースDBに設定する内容はストリームの作成画面で詳細の手順が表示されるので、設定につまづくといったことは少ないと思います。

また、Datastream for Big Query(Postgresql)は一般提供(GA)提供されているので、本番環境でもご利用いただくことができるようになりました。PostgresqlをBig Queryを利用してデータ分析をされたい場合は是非、本記事をご参照ください。

Google Cloud

Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。

MSPサービス

MSP(Managed Service Provider)サービスは、お客さまのパブリッククラウドの導入から運用までをトータルでご提供するマネージドサービスです。

おすすめの記事

条件に該当するページがございません