フォーム読み込み中
この記事では、Google DeepMind社が開発した最新の画像生成AI「Imagen 3」の実力と可能性について解説します。
Imagen 3はテキストによる指示(プロンプト)に基づいて、写真と見分けがつかないほどリアルで高解像度の画像を生成する能力を持っています。特に、様々なスタイルの画像生成や構図の細かい制御、編集機能に秀でており、ユーザーの創造力を最大限に引き出します。
さらに、Google CloudのVertex AIを活用してImagen 3による画像生成を試すための実践的な手順も紹介します。Python仮想環境の設定から具体的なコード例まで網羅しており、実際に画像生成を体験する方法を解説していきます。
Google DeepMind社が開発した最新の画像生成AI「Imagen 3」は、テキストによる指示(プロンプト)に基づいて、高品質かつ多様な画像を生成するAIモデルです。特に注目すべきは、写真と見分けがつかないほどリアルな画像生成能力、複雑な構図の正確な理解、そして高度なテキスト解釈能力です。
これまでの画像生成AIでは、生成される画像の解像度が低かったり、テキストの指示を正確に反映できなかったりするなどの課題がありました。しかし、Imagen 3はこれらの課題を克服し、より写真で撮ったかのような自然で高精細な画像を生成することを可能にしました。
以降では、Imagen 3の機能や活用事例について解説します。
Imagen 3は、単に高品質な画像を生成するだけでなく、ユーザーの創造性を刺激する多彩な機能を備えています。
スタイル制御: Imagen 3は、「写真風」「イラスト風」「アニメ風」など、様々なスタイルの画像を生成することができます。ユーザーは、プロンプトにスタイルを指定することで、好みの雰囲気の画像を生成することができます。
構図制御: Imagen 3は、オブジェクトの配置、カメラアングル、照明などを指定することで、構図を細かく制御することができます。これにより、ユーザーは、よりイメージに近い画像を生成することができます。
編集機能: Imagen 3は、生成した画像を編集する機能も備えています。例えば、オブジェクトの追加、削除、変形、色の変更などが可能です。これにより、ユーザーは、生成した画像をさらに細かく調整することができます。
バリエーション生成: Imagen 3は、1つのプロンプトから複数のバリエーションの画像を生成することができます。ユーザーは、生成されたバリエーションの中から、最も気に入った画像を選択することができます。
今回はGoogle CloudのCloud shellとエディタ、VertexAIのSDKを使い、Imagen3を用いた画像生成するプログラムを作成していきます。
ローカルで構築したい場合は、公式ドキュメント「Python のセットアップと利用」を参考にPythonをインストールをしてください。
1. まずGoogle Cloudのコンソールを開きます。
2. Cloud Shellを開きます。
Cloud Shellの承認を求められますので承認を押します。
3. Cloud Shellを見やすくするために新しいウィンドウを開きますを押します。
4. pythonのversionを確認します。
画像ではpython3.12ですが3.8以上であれば問題ないです。
5. Pythonの仮想環境を構築してVertex AI SDK for Pythonをインストールします。
仮想環境の構築については「pip と venv を使って仮想環境にパッケージをインストールする」を参照してください。
以下のコマンドを利用してVertex AI SDK for Pythonをインストールします。
pip install grpcio-status==1.67.1 grpcio==1.67.1 google-cloud-aiplatform
6. エディタを起動します。
エディタの「New File」(新規ファイル)からファイルを作成し、「test.py」と名前を付けて保存します。
コード内の "YOUR_PROJECT_ID"の箇所には、ご自身のGoogle Cloud PlatformのプロジェクトIDを記載し、以下のコードを貼り付けてください。
import vertexai
from vertexai.preview.vision_models import ImageGenerationModel
PROJECT_ID = "YOUR_PROJECT_ID"
LOCATION = "asia-northeast1"
vertexai.init(project=PROJECT_ID, location=LOCATION)
generation_model = ImageGenerationModel.from_pretrained("imagen-3.0-fast-generate-001")
prompt="White dog"
output_file="./output.png"
try:
images = generation_model.generate_images(
prompt,
number_of_images=1,
language="auto"
)
images[0].save(location=output_file, include_generation_parameters=False)
except Exception as e:
print(f"エラーが発生しました: {e}")
7. Cloud Shellでターミナルにもどり、以下のコマンドでプログラムを実行します。
python3 test.py
8.同一ディレクトリにoutput.pngが保存されていることを確認し、画像を確認します。
コードベースでも無事に画像を出力することができました。ブログ用に少し解像度を落としてあります。
Imagen 3は他の技術との連携も期待されています。例えば、GWS(Google Workspace)との連携により、Googleスライドの記載内容から必要な画像を自動生成できるようになるかもしれません。さらに、チャットツールとの連携によって、既存のGIFだけでなく、やり取りの内容に応じてLINEスタンプのようなものを自動で複数作成し、提案するような技術も考えられます。
以下に、より具体的な活用用途の例をいくつか挙げます。
本記事では、Google DeepMind社が開発した最新の画像生成AI「Imagen 3」について簡単に解説しました。開発段階ながらも、Imagen 3は従来のモデルを凌駕する性能と可能性を秘めており、画像生成AI分野に大きな変革をもたらすことが期待されます。
Imagen 3は、高解像度な画像生成、複雑なテキスト理解、多様なスタイル制御といった機能を持ち、デザイン、広告、エンターテイメント、教育、アートなど、幅広い分野での活用が考えられます。AIと人間の共創を促進するツールとして、私たちの未来に新たな可能性をもたらすでしょう。
今後のさらなる進化により、Imagen 3はより高精度な画像生成や、他の技術との連携が進むことが予想されます。
最後までお読みいただき、ありがとうございました。
Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。
MSP(Managed Service Provider)サービスは、お客さまのパブリッククラウドの導入から運用までをトータルでご提供するマネージドサービスです。
条件に該当するページがございません