SNSボタン
記事分割(js記載用)

【マルチモーダル】 ~1分で分かるキーワード #233

【マルチモーダル】 ~1分で分かるキーワード #233

複数種類のデータを組み合わせること

複数種類のデータを組み合わせることで複雑な情報を処理

モーダルとは、テキスト、画像、音声、動画など情報を伝達するための方法や形式を表す言葉です。それら複数の形態や手段が合わさったデータをマルチモーダルなデータといいます。コンピューターだけでなく私たち人間の脳も、スマホの画面を見ながら手で操作したり、テレビを視聴する際は、聴覚、視覚、触覚など複数の手段を組み合わせたマルチモーダルな情報処理を行っています。

マルチモーダルな処理方式をAIの分野に取り入れ、テキスト、音声、画像、動画、センサー情報など多様なデータを収集・統合して処理を行うAIを、マルチモーダルAIと呼びます。例えば生成AIなどで、写真の内容を理解し説明文を生成するのも、画像とテキストを用いたマルチモーダルAIです。特に刻々と変化する複雑な情報をリアルタイムに収集・処理し、迅速な解析と判断が求められる自動運転や医療などの分野には欠かせない仕組みです。

ソフトバンクのグループ企業であるSB Intuitions株式会社では、日本の商習慣や文化に適した生成AIサービス提供に向け、マルチモーダル対応の国産大規模言語モデル(LLM:Large Language Models)の研究開発に取り組んでいます。

マルチモーダルの関連記事

(掲載日:2024年10月22日)
文:ソフトバンクニュース編集部