フォーム読み込み中
生成AIの研究開発における激しい競争の中、生成AIモデルだけでなく、RAGやエージェントなどの周辺技術を含むプラットフォーム全体としての取り組みが求められています。ソフトバンクは、2023年10月に日本語最高品質の生成AIモデルの開発を目指す新会社「エスビーインテュイッションズ(以下:SB Intuitions)」を設立。2024年度中に3,900億パラメーターの国産LLM構築を目指しています。SoftBank World 2024の中で代表取締役 兼 CEOの丹波が、革新的な技術をどのように生み出し、普及させていくか。国産生成AIの切り拓く未来を語りました。
本記事は、2024年10月3日に開催されたSoftBank World 2024での特別講演を編集したものです。
丹波 廣寅
SB Intuitions株式会社
代表取締役 兼 CEO
冒頭で丹波は、次世代デジタル社会基盤の構築についてこう切り出しました。
「SB Intuitionsは、国産LLMに特化した研究開発をしています。開発には多大なコストがかかりますが、それでも私たちが挑戦する理由は『次世代デジタル社会基盤の構築』のためです。
コロナ後の環境変化や少子高齢化など、日本はさまざまな社会課題を抱えています。日本の社会は居住や経済活動の多様化により、集中型から自律・分散・協調型へと変わりつつあり、これに伴いインフラの再構築が必要です。
製造から最終的な配送までを効率化するためには、全体を通して見て一貫性のあるサービスを構築する必要があります。例えば、ECサイトでの注文から配送までのプロセスにおいては、気象情報や交通情報が連携すれば、どのルートで運ぶと効率的かを把握できます。
地方に住む人々も都市部と変わらずにデジタルサービスの恩恵を受けるには、次世代デジタル社会基盤の構築が求められており、これにはAIの活用が不可欠です。AIで予測される、AIを使ってサジェストしてくれる機能が必要になってきます」
続いて丹波は、デジタルツイン※社会におけるAIの役割について、具体例を挙げながら語りました。
「膨大なデータに基づいたデジタルツイン上では、リアル空間における分析・検証をバーチャル空間上で可能とします。
たとえば、自動運転車による交通事故検証のユースケースを見ていくと、これまで専門家が現場で行っていたことや専門家の知識をAIに組み込んでさまざまなモデルを作ることで、AIによって事故検証のプロセスを高速化でき、迅速な対応が可能になります。出てきた回答の中から、該当の事故に最も近いケースを人間が最終判断することで、AIを活用した最適な意思決定を行うことが可能になります」
※現実にきわめて近い仮想空間をコンピュータ上に構築し、仮想空間内でさまざまなシミュレーションを行い、その結果を現実世界にフィードバックする技術を指す
「我々が目指すことはただ1つ、『あらゆる産業の競争力のエンジンとなり、世の中を成長させる』ということです。我々SB Intuitionsには、生成AIの開発経験がある優秀なエンジニアと研究者たちが各社から集結しています。LLM開発においては、さまざな言語をどう処理するかがポイントになるので、自然言語を専門とする研究者がいることが大きな強みです。
その中でSB Intuitions は、日本語性能の高い大規模基盤モデルの研究開発と、日本の文化や商習慣にあった、安全安心なAIサービスを提供することを目的に開発を行なっています。
生成AIを開発するためには、膨大なデータセットと高度なアルゴリズムが必要です。ソフトバンクは、185億円をAI計算基盤へ投資し、700億パラメーターのモデルを動かしています。しかし、これだけでは十分ではなく、さらに大きなモデルを作るために1,500億円を投資し、AI計算基盤の計算能力を増強し、2024年内には3,900億パラメーター、将来的には1兆パラメーターのLLM構築実現を目指しています」
なぜ自らの国での開発に取り組むのかについて、丹波はこう語ります。
「データの海外移転は、外国の法令によってデータが開示される可能性があり情報漏えいのリスクが高まります。国内での開発環境は、国内でのデータ利用による法的な衝突の回避、セキュリティの確保につながります。
日本語に特化したLLMを構築するため、日本の文化や歴史に適したモデルが作られ、より正確な情報提供が可能になります。さらに、データセットの収集とチューニングを行い、専門的な知識を追加することで、性能の高いモデルを開発しています。
LLMの構築には大きく『事前学習』と『Fine-tuning』の2ステップから成りますが、この事前学習モデルを作るために大規模な日本語のデータベースを用意しています。これにより、日本語に特化し、日本の文化が反映されたLLMのモデルができ、さらにユーザーの明確な指示を実行できるよう、細かいチューニングを行っています。
SB Intuitionsのモデルは、『事前学習モデルにおける日本語性能の評価』で同程度のパラメータ数のモデルとの比較においてトップを記録し、日英翻訳性能の評価もトップを記録しているのが現在の状況です。当然日本の歴史や日本の文化については、日本語で勉強する方が賢くなります。数学など論理的なものは言語学習に関係なく生成できるものなので、両方のデータセットをうまく組み合わせることで高い性能モデルの作り方となり、我々はここを突き進めていきます」
※2024年9月時点。当社内での比較による
開発手法の特徴についてこう語りました。
「我々は日本語データでゼロから生成AIモデルを構築するという、スクラッチ開発でモデルを構築しています。そのため大量の計算基盤と専門人材が必要となります。海外のモデルを使用するのは簡単ですが、スクラッチ開発によってデータのコントロールが可能となり、著作権やメディア情報の管理がしやすくなります。これにより、お客さまに提供する際の品質管理が可能となります」
「もう一つの挑戦として、AiHUB社との共同開発で、バーチャルヒューマン技術の開発を開始しました。この技術は、音声の対話を含むマルチモーダルインターフェースで、将来的にさまざまなビジネスシーンでの活用が期待できます。
社会実装には、汎用モデルと専門モデルの組み合わせが必要です。汎用モデルができない特殊な言葉、特殊なタスク、専門的な知識というのは、各業界に特化したモデルが求められます。例えば医療や法律、金融などの業界では業界特化モデルと汎用モデルをうまく使い分けることで実装が可能になります。最終的には、エージェントが業務プロセスを管理し、適切なモデルを選択する環境を構築することを目指します」
最後に丹波は講演をこう締めくくりました。
「AI時代には多くの可能性が秘められています。AIは単なるツールではなく、次世代デジタル社会基盤の中核となるエンジンです。国内LLMの特徴を生かし、出してはいけない情報を制御するための倫理規定を作り、研究開発を進めていきます。我々のミッションは、日本全国で一貫性のある、全国津々浦々にサービスを提供できる次世代デジタル社会基盤を構築することです。この基盤にはAIが組み込まれ、デジタルサービスが全ての人々に届くように、取り組みを続けていきます。新たな産業の創出や社会課題の解決のために、そのエンジンとなる技術研究開発を今後も進めています」
AIの技術を活用したデジタルサービスが、全ての人々に届く未来を目指し、SB Intuitionsの挑戦はこれからも続きます。
生成AIの展開・全社で利活用を進めるための組織定着に関することにまるっと対応します。
Microsoft Azure OpenAI の基盤と環境構築がセットになったサービスです。検証やスモールスタートで始めたい方にお勧めです。
TASUKI Annotation は、社内データの構造化により、検索拡張生成(RAG)システムの回答精度の向上・改善支援を行います。
現役のエンジニアが、実際のビジネスの現場で取り組んだAI活用事例やそこで得たプログラミングなどのノウハウを教材化し、実践的かつ専門性の高い学習コンテンツをオンラインで提供します。
dailyAIは、環境構築不要で手軽に利用できるクラウド型の生成AIサービスです。手持ちのデータや社内のデータを活用し、Webブラウザからファイルをアップロードするだけで、日々の業務を生成AIで効率化できます。
その他にも、生成AIの導入や構築を支援するサービス、AIを搭載した実用的なサービスをこちらのページからご覧いただけます。
条件に該当するページがございません