
日本語ベースのLLMを構築し
次の飛躍に向けた礎を
つくり上げる
SB Intuitions(株) 代表取締役社長 兼 CEO
丹波 廣寅
Q. SB Intuitions(株)のミッションを教えてください。
当社のミッションは、ソフトバンクの完全子会社として、生成AIを中心とした技術開発を行うことです。足下では、日本語のデータセット※1で開発された、約3,900億パラメーター※2を持つマルチモーダル対応※3の大規模言語モデル(LLM: Large Language Models)を2024年度中に完成させることを目標としており、中長期的には約1兆パラメーターまで引き上げることを目指して取り組んでいます。
- [注]
-
- ※1大規模言語モデルの学習のために使用するデータの集合
- ※2言語モデルの複雑さや学習能力を表す指標
- ※3テキスト、音声、画像、動画、センサー情報など、二つ以上の異なる種類のデータから情報を収集し、それらを統合して処理するAIシステム
Q. なぜ日本語ベースのLLMの開発に取り組んでいるのでしょうか?
先々を見据えたときに、デジタルサービスの中心が生成AIになっていくとするならば、その根幹となる日本語ベースのLLMを国内で持つ必要性があると考えたからです。現在の日本のデジタルサービスを見渡してみると、OSやクラウドサービスのように、大部分を海外企業に頼っている状況です。デジタル貿易赤字は年々拡大しており、2023年には5.5兆円もの規模となりました。よく利用される生成AIが海外のものだけになるのであれば、ライセンス料の支払いなどで、この赤字はさらに拡大するのではないかと危惧しています。当社が開発するLLMを通じて、国富が国内に残る構造をつくり上げるとともに、ソフトバンクの成長につなげていきたいと考えています。
Q. 海外企業が開発するLLMに対する優位性は?
日本語圏の商習慣や文化的・言語的なニュアンスを正確に踏まえた応答ができることが優位性になる見込みです。LLMは「言語構造を持った知識の集まり」のようなものですが、当社が開発するLLMは、「日本語で書かれた日本語圏に存在する情報」を基に訓練されます。そのため、日本語の言語構造がモデルに反映されますので、高い日本語の精度を有することになります。
海外企業が開発するLLMは「英語で書かれた英語圏に存在する情報」を基に訓練されています。日本語での問い合わせにも対応していますが、LLMの内部には、英語のデータから学習された知識や言語構造が色濃く反映されています。結果として、出力された日本語の文章が翻訳調になってしまい、日本語を母国語とする人々にとっては不自然に感じてしまうという難点があります。
また、英語圏と日本語圏では、文化や商習慣などが大きく異なります。銀行業界を例にすると、長く使われていない銀行口座を日本語では「休眠口座」(Dormant account)と言います。「眠る」という意味の漢字が入っている言葉ですが、これを「眠っている口座」(Sleeping account)と誤訳してしまったら、顧客からの信頼を損なってしまう恐れがあります。旅行業界を例にすると、米国では自家用車を活用した旅行が主流ですが、日本では電車やツアーバスを活用することが一般的です。海外企業が開発するLLMを使って旅行プランをつくるソリューションを提供するときに、「その方面のホテルを予約しました、有名な観光地はここです、現地までは自家用車で行ってください」という回答だけが出てくると、日本語圏に住む顧客の満足度は下がってしまうでしょう。
もちろん、こういった情報一つ一つを知識として海外企業が開発するLLMに学習させることはできますが、商習慣や文化的・言語的なニュアンスを全て網羅することは困難です。最近では、海外企業が開発したLLMに、日本語を少し追加学習させて日本語の精度を高めようという国内企業の取り組みもありますが、同じ課題が残るのではないかと考えます。
より自然で正確な応答ができる日本語ベースのLLMを開発し、国内企業に提供することで、差別化を図っていきたいと思います。
Q. 日本語LLMを開発するにあたってのSB Intuitions(株)の強みは?

人材、日本語のデータ量、ソフトバンクの持つAI計算基盤の三つが強みであると考えています。
まず人材の面ですが、日本語のLLMを開発するためには、日本語のデータを正しく処理し、そこにある構造や知識をモデルに正確に反映させる必要があります。そのため、自然言語処理の専門家が必要となりますが、幸いなことに、グループ内にはそのような専門家が多数います。なぜなら、グループ内に「Yahoo! JAPAN」の検索サービスがあり、入力された日本語を基に適切な検索結果を返すために、これまでも自然言語の観点からさまざまな処理を行ってきたからです。このような専門家をSB Intuitions(株)に集約し、一気に開発を進めています。
次に、日本語のデータ量ですが、これも「Yahoo! JAPAN」で蓄積されている膨大な日本語のデータがすでにあることが強みとなります。「Yahoo! JAPAN」では、適切な検索結果を表示するために、膨大な日本語の情報を蓄積し活用しています。この情報は、個人情報が含まれず権利処理済の情報ですので、データセットとして活用できます。この規模の情報量を一から収集しようとすれば、数年はかかるような量ですから、大きな強みであると認識しています。
最後にソフトバンクの持つAI計算基盤の規模ですが、こちらは国内の企業として最大規模、アジアで見ても有数の規模となる見込みです。2023年秋には、0.7エクサ※4フロップス※5の計算能力を持つAI計算基盤「NVIDIA DGX SuperPOD™」を稼働させました。このAI計算基盤は、「NVIDIA A100 Tensor Core GPU」(A100)を搭載しており、約130億円(経済産業省の「クラウドプログラム」の補助金 約50億円考慮後)を投じました。さらに、2024年5月には、追加で25エクサフロップスの計算能力を持つAI計算基盤への投資を発表しました。このAI計算基盤は、A100の上位モデルである「NVIDIA H100 Tensor Core GPU」(H100)を搭載したものに加えて、米NVIDIAが2024年3月に発表した世界最先端の「NVIDIA B200 Tensor Core GPU」(B200)を搭載したものとなる予定です。追加の投資額は、約1,100億円(経済産業省の「クラウドプログラム」の補助金 最大約400億円考慮後)を見込んでいます。これらの合算の計算能力は25.7エクサフロップスとなる予定であり、当社はこのAI計算基盤を活用することで、約3,900億パラメーター、約1兆パラメーターを持つ日本語ベースのLLMを他社に先駆けて開発することができるため、先行者としてのメリットが得られると考えています。
- [注]
-
- ※4エクサ:10の18乗
- ※5フロップス:コンピューターの処理能力の単位。1秒間に浮動小数点演算を何回できるかという能力
Q. 国内の競合他社は軽量なモデルで商用化を急いでいますが、SB Intuitions(株)の考え方を教えてください。
一度パラメーター数の大きなモデルをつくってしまえば、目的に応じた柔軟なアプローチをとることができるため、商用化まで多少時間がかかったとしてもまずはパラメーター数の大きいLLMの構築を優先したいと考えています。
大きなパラメーター数を持つLLMを、目的に応じて小さくし最適化する「蒸留」というアプローチをとるのが昨今の生成AI構築の潮流であり、われわれもこのアプローチをとる方針です。例えば、会話に特化したモデルにする、医療に特化したモデルにするなど、目的に応じてLLMを蒸留すると、小さな言語モデル「SLM(Small Language Models)」が構築できます。このSLMは、LLMの性能をある程度引き継ぐことができるので、高い日本語の精度を維持しながら、応答が早く、消費電力が少ないモデルになります。小さいパラメーター数を持ったLLMを最初からつくる場合は、特定の分野に強いといった特長を持たせる場合が多いのですが、そうすると他の分野に転用することが難しくなります。「六法全書のことは答えられます。でも日常的な会話は苦手です」というLLMよりは、「日常的な会話も、LLMから性能を引き継いでいるのである程度こなせます。加えて、六法全書のことも答えられます」というSLMの方が、顧客のニーズにマッチするのではないでしょうか。
Q. 日本語ベースのLLMを用いて、どのように収益化していくのでしょうか?
日本語ベースのLLM単体で収益化するのではなく、「LLMが使えるプラットフォームを提供する」あるいは「LLMをソリューションに組み込んでサービスとして提供する」ことで顧客企業にとっての付加価値を生み出し、収益化を図ります。
「LLMが使えるプラットフォームを提供する」とは、自社のクラウドサービスのプラットフォーム上の機能の一つとして、日本語ベースのLLMを使ってもらう、PaaS(Platform as a Service)のビジネスです。例えば、高速道路に電気自動車が入ってきたときに、次にどこで充電すればよいのかを案内してくれるサービスをソフトバンクのクラウドサービス上に構築する場合を考えてみましょう。従来のデジタルサービスであれば、充電ステーションの場所をディスプレイに表示して、電気自動車の電池が減ってきたタイミングで充電するように案内するだけでした。しかし、日本語ベースのLLMの機能を使ってもらって、どの充電ステーションに電気自動車を誘導すれば、最もコストを減らせるのかを自律的に判断し、自然な日本語でドライバーを誘導することができれば、顧客にとっての付加価値になります。
「LLMをソリューションに組み込んでサービスとして提供する」とは、自社で日本語LLMを組み込んだSaaS(Software as a Service)を開発し、顧客企業に提供するということです。ソフトバンクでは、生成AIを用いたコールセンターの自動化ソリューションを開発しています。お客さまからの問い合わせに応じて、日本語LLMが自然な日本語の回答案を一瞬で示すことができれば、コールセンターのスタッフは助かるでしょう。スタッフの定着率が上がれば、採用コストなどが削減できますので、顧客企業にとっての付加価値になります。これらのような付加価値が創出できれば、応分の割合でソフトバンクの収益となっていきます。
また、先ほど説明したAI計算基盤を、IaaS(Infrastructure as a Service)として政府や自治体、民間企業に貸し出すことも収益につながりますし、生成AIをどのように導入するのかを企業などにコンサルティングすることも収益につながると想定しています。
短期的・中期的には、主に日本語ベースのLLMがこのようなPaaSやSaaSの価値を上げることにつながると想定していますが、長期的には生成AI自身が人間にできなかった価値を「生成」してくれると期待しています。例えば、新しい病気に効く薬を開発するために、人間が1万件の成分候補の中から、5年かけて有効性を検証していたとします。それが、生成AIに問い合わせることで成分候補を100件まで絞り、1年で有効性を検証できたならば、大きな付加価値となります。同様に、軽い飛行機を造るための材料の候補や、新型電池の電極の候補を生成AIが見つけることができるようになれば、これもとてつもない付加価値となります。
このように、LLMを活用したプラットフォームやサービスを生み出し、付加価値を創出していくことで、ソフトバンクやグループ全体の収益に貢献できるように努めていきたいと考えています。

Q. 海外企業を含めて複数の企業がLLMを開発していますが、今後の見通しはいかがでしょうか?
基本的な考え方として、LLMの使い分けがなされていくと考えており、それがユーザーにとって最もベネフィットになると考えています。そのような中で、根幹となる日本語に強いLLMは当社が担いたいと考えています。
さまざまな特長を持ったLLMが登場しており、今後それらのLLMの「得意なこと・苦手なこと」「知っていること・知らないこと」を人が把握し、組み合わせて提供されるようになっていくと予想しています。将来的には、「生成AIに、使う生成AIを考えさせる」ことができるようになると見込んでいます。医療を例に挙げて説明すると、まず患者が説明する症状を正確に理解できる、言語に強い大きいサイズのLLMを準備します。次に、外科、内科、画像診断といった専門分野に特化した小さいサイズのLLMを複数並べます。そして、日本語に強いLLMが患者の症状の説明に沿って、専門分野に特化したLLMと治療方針を議論します。コンピューター同士の議論ですし、専門領域に特化していますから、物凄いスピードで議論が終わることでしょう。最後に、議論の結果を、日本語に強いLLMが適切な言葉に置き換えて患者に説明します。このような活用シーンを想定したときに、専門分野に特化したLLMは必ずしも自社開発のものでなくてもよいと考えていますが、患者が説明する内容を正確に把握できる日本語に強いLLMは常に必要です。当社の日本語ベースのLLMはこのような利用シーンで中心的な役割を担い、大きく貢献できるのではないかと考えています。
今後LLMがあらゆるデジタルサービスの中心的な存在になるのであれば、今チャレンジしておかなければ、最後の機会を逃すのではないかという危機感で取り組んでいます。当面は研究開発のフェーズが続きますが、その成果を次のソフトバンクの成長の礎にできるよう、チャレンジを続けていきたいと思います。