国産生成AIが切り拓く未来：SB Intuitionsの挑戦

2024年10月11日掲載

生成AIの研究開発における激しい競争の中、生成AIモデルだけでなく、RAGやエージェントなどの周辺技術を含むプラットフォーム全体としての取り組みが求められています。ソフトバンクは、2023年10月に日本語最高品質の生成AIモデルの開発を目指す新会社「エスビーインテュイッションズ（以下：SB Intuitions）」を設立。2024年度中に3,900億パラメーターの国産LLM構築を目指しています。SoftBank World 2024の中で代表取締役兼 CEOの丹波が、革新的な技術をどのように生み出し、普及させていくか。国産生成AIの切り拓く未来を語りました。

本記事は、2024年10月3日に開催されたSoftBank World 2024での特別講演を編集したものです。

丹波廣寅

SB Intuitions株式会社
代表取締役兼 CEO

日本社会を取り巻く環境変化と次世代デジタル社会基盤

冒頭で丹波は、次世代デジタル社会基盤の構築についてこう切り出しました。

「SB Intuitionsは、国産LLMに特化した研究開発をしています。開発には多大なコストがかかりますが、それでも私たちが挑戦する理由は『次世代デジタル社会基盤の構築』のためです。

コロナ後の環境変化や少子高齢化など、日本はさまざまな社会課題を抱えています。日本の社会は居住や経済活動の多様化により、集中型から自律・分散・協調型へと変わりつつあり、これに伴いインフラの再構築が必要です。

製造から最終的な配送までを効率化するためには、全体を通して見て一貫性のあるサービスを構築する必要があります。例えば、ECサイトでの注文から配送までのプロセスにおいては、気象情報や交通情報が連携すれば、どのルートで運ぶと効率的かを把握できます。

地方に住む人々も都市部と変わらずにデジタルサービスの恩恵を受けるには、次世代デジタル社会基盤の構築が求められており、これにはAIの活用が不可欠です。AIで予測される、AIを使ってサジェストしてくれる機能が必要になってきます」

SBW2024,SoftBank,丹波廣寅

次世代デジタル社会基盤のイメージ図

デジタルツイン社会で中核となるAI

続いて丹波は、デジタルツイン^※社会におけるAIの役割について、具体例を挙げながら語りました。

「膨大なデータに基づいたデジタルツイン上では、リアル空間における分析・検証をバーチャル空間上で可能とします。

たとえば、自動運転車による交通事故検証のユースケースを見ていくと、これまで専門家が現場で行っていたことや専門家の知識をAIに組み込んでさまざまなモデルを作ることで、AIによって事故検証のプロセスを高速化でき、迅速な対応が可能になります。出てきた回答の中から、該当の事故に最も近いケースを人間が最終判断することで、AIを活用した最適な意思決定を行うことが可能になります」

※現実にきわめて近い仮想空間をコンピュータ上に構築し、仮想空間内でさまざまなシミュレーションを行い、その結果を現実世界にフィードバックする技術を指す

SB Intuitionsの取り組み

「我々が目指すことはただ1つ、『あらゆる産業の競争力のエンジンとなり、世の中を成長させる』 ということです。我々SB Intuitionsには、生成AIの開発経験がある優秀なエンジニアと研究者たちが各社から集結しています。LLM開発においては、さまざな言語をどう処理するかがポイントになるので、自然言語を専門とする研究者がいることが大きな強みです。

その中でSB Intuitions は、日本語性能の高い大規模基盤モデルの研究開発と、日本の文化や商習慣にあった、安全安心なAIサービスを提供することを目的に開発を行なっています。

生成AIを開発するためには、膨大なデータセットと高度なアルゴリズムが必要です。ソフトバンクは、185億円をAI計算基盤へ投資し、700億パラメーターのモデルを動かしています。しかし、これだけでは十分ではなく、さらに大きなモデルを作るために1,500億円を投資し、AI計算基盤の計算能力を増強し、2024年内には3,900億パラメーター、将来的には1兆パラメーターのLLM構築実現を目指しています」

ソフトバンク,SBW2024,丹波廣寅

SBW2024 講演時の様子

国内でAI計算基盤を構築する重要性

なぜ自らの国での開発に取り組むのかについて、丹波はこう語ります。

「データの海外移転は、外国の法令によってデータが開示される可能性があり情報漏えいのリスクが高まります。国内での開発環境は、国内でのデータ利用による法的な衝突の回避、セキュリティの確保 につながります。

日本語に特化したLLMを構築するため、日本の文化や歴史に適したモデルが作られ、より正確な情報提供が可能 になります。さらに、データセットの収集とチューニングを行い、専門的な知識を追加することで、性能の高いモデルを開発しています。

LLMの構築には大きく『事前学習』と『Fine-tuning』の2ステップから成りますが、この事前学習モデルを作るために大規模な日本語のデータベースを用意しています。これにより、日本語に特化し、日本の文化が反映されたLLMのモデルができ、さらにユーザーの明確な指示を実行できるよう、細かいチューニングを行っています。

SB Intuitionsのモデルは、『事前学習モデルにおける日本語性能の評価』で同程度のパラメータ数のモデルとの比較においてトップを記録し、日英翻訳性能の評価もトップを記録しているのが現在の状況です。当然日本の歴史や日本の文化については、日本語で勉強する方が賢くなります。数学など論理的なものは言語学習に関係なく生成できるものなので、両方のデータセットをうまく組み合わせることで高い性能モデルの作り方となり、我々はここを突き進めていきます」

SB Inttuitions,国産LLM,sarashina

事前学習モデルにおける日本語性能評価とSB Intuitionsのモデル（赤枠）※

※2024年9月時点。当社内での比較による

開発手法の特徴についてこう語りました。

「我々は日本語データでゼロから生成AIモデルを構築するという、スクラッチ開発 でモデルを構築しています。そのため大量の計算基盤と専門人材が必要となります。海外のモデルを使用するのは簡単ですが、スクラッチ開発によってデータのコントロールが可能となり、著作権やメディア情報の管理がしやすくなります。これにより、お客さまに提供する際の品質管理が可能となります」

国産LLM,スクラッチ開発

スクラッチ開発モデルの特徴

続いて丹波は、国産LLMを使った質疑応答例についての比較について話しました。

「例えばSB Intuitionsのモデルと、GPT-4oを比較して『全国の地図を最初に作った人物は誰ですか？』と聞いてみます。GPT-4oでは伊能忠敬と応えますが、実際に地図を作ったのはSB Intuitionsのモデルが応えた通り、長久保赤水です。ほかにも、節分の行事について聞いたり、日本の法律、社会のマナーなどを質問すると、日本語データを中心に学習した国産LLMの有効性をお分かりいただけると思います」（詳しくはオンデマンド配信からご覧いただけます）

さらなる挑戦と未来への展望

「もう一つの挑戦として、AiHUB社との共同開発で、バーチャルヒューマン技術の開発を開始しました。この技術は、音声の対話を含むマルチモーダルインターフェースで、将来的にさまざまなビジネスシーンでの活用が期待できます。

社会実装には、汎用モデルと専門モデルの組み合わせが必要です。汎用モデルができない特殊な言葉、特殊なタスク、専門的な知識というのは、各業界に特化したモデルが求められます。例えば医療や法律、金融などの業界では業界特化モデルと汎用モデルをうまく使い分けることで実装が可能になります。最終的には、エージェントが業務プロセスを管理し、適切なモデルを選択する環境を構築することを目指します」

SB Inttuitions,バーチャルヒューマン技術,AiHUB

バーチャルヒューマン技術のイメージ図

最後に丹波は講演をこう締めくくりました。

「AI時代には多くの可能性が秘められています。AIは単なるツールではなく、次世代デジタル社会基盤の中核となるエンジンです。国内LLMの特徴を生かし、出してはいけない情報を制御するための倫理規定を作り、研究開発を進めていきます。我々のミッションは、日本全国で一貫性のある、全国津々浦々にサービスを提供できる次世代デジタル社会基盤を構築することです。この基盤にはAIが組み込まれ、デジタルサービスが全ての人々に届くように、取り組みを続けていきます。新たな産業の創出や社会課題の解決のために、そのエンジンとなる技術研究開発を今後も進めています」

AIの技術を活用したデジタルサービスが、全ての人々に届く未来を目指し、SB Intuitionsの挑戦はこれからも続きます。