フォーム読み込み中
この記事はソフトバンクアドベントカレンダー2023 の22日目の記事になります。
こんにちは。2023/12/1にLINEヤフーからソフトバンクに転籍した佐藤敏紀(@overlast )です。デジタル社会基盤整備室という部署で人工知能 (AI: Artificial Intelligence)や自然言語処理(NLP: Natural Language Processing)に関わる戦略を立案しています。
今回のテーマは大規模言語モデル(LLM)のソースコードを公開する際のソフトウェア頒布ライセンス選びについてです。
昨今、様々な法人に所属する研究者・開発者や個人の方が、自社で構築したLLMのソースコードを公開したり、他社がソースコードを公開したLLMに変更を加えて再配布したりしています。
LLMの公開をするとに決めた際に悩むことは数多いのですが、そんな中でも後から改善できない要素が「名前」と「ソフトウェア頒布ライセンス(以降、単にライセンスと呼ぶ)」です。これらは一度ソースコードに付与して公開してしまうと、そのソースコードがこの世のどこかに残ってしまいます。
ソースコードを公開する際にパッケージなどの名前をどの様につけるべきか、も相当に深いテーマですが今回は言及しません。
どんなライセンスをLLMに付与すると良いのか?、に対する答えは「目的によって変わる」です。
まずは、現状を把握するために、最近公開されている日本語のLLMにどんなライセンスが付与されているか”LLMの利用・開発・運用に関する要素”に関して表にまとめます。
このように、LLMに付与されたライセンスには、一括りにできない多様な種類と性質があることが分かります。企業に所属する開発者である私は、商用のための単純な利用や、SaaS化、開発物への組み込みや、組み込みのために改変ができるのかなどの要素に、まずは着目します。
今までに自分が関わった成果物に付与する回数が多かったライセンスはApache License Ver.2.0でした。このライセンスはオープンソースソフトウェア認証に準拠したライセンスです。他方で、CC BY-SA 4.0の様な改変部分の公開を前提としているライセンスは、将来の開発物の利用形態に強い制約を抱える可能性があるため、できるだけ避けるようにしていました。
LLAMA 2 Community LicenseやCC BY-NC 4.0のようなオープンソースソフトウェア認証に準拠していないライセンスも多数あります。ソースコードが公開されていればオープンコードとは言えますが、オープンソースではないということを留意する必要があります。
上記の表にまとめた日本語LLMに付与されているライセンスは、一目で分かるとおり利用方法についてそれほど強い制約を課していません。とくにアカデミックで研究をなさっている方にとっては、どれも同様に感じるのではないかと思います。
ここで、LLMではなく他の分野のソフトウェアに着目しますと、オープンソースやオープンコード以外に、従来のライセンスではあまり想定していなかった要素を持った新しいライセンスが開発されています。具体的には、オープンコード戦略を採る企業の自衛策として役立ったり、収益獲得に繋げるためのライセンス適用を試みているプロジェクトがあります。
このような新しいライセンスのうちLLMとの相性が良さそうなライセンスを適用しているプロジェクトを2つ取り上げて、各ライセンスの気になる性質を表にまとめてみます。
この様な新しいライセンスは有力な開発プロジェクトが運営の健全性を確保する目的で導入されるケースを観測する機会が増えてきました。LLMの構築には莫大な予算と人的リソースを必要としますので、今後はこのような新しいライセンスの適用や改変を検討する必要もあるでしょう。
LLMのソースコードを公開する際のライセンス選びの結果は、LLMの将来のニーズに影響し、また開発者自身の将来や心身の健康にも影響します。「知っているLLMが使っているライセンスを真似して採用する」みたいな方針で、自らのLLMに付与するライセンスを決めてはいけません。
この記事では、大規模言語モデル(LLM)のソースコードを公開する際のソフトウェア頒布ライセンス選びについて解説しました。
一度ライセンスを付与してソースコードを公開したLLMは、決して公開前の状態には戻せません。そして、付与したライセンスは付与されたLLMを使用した他のソースコードにも波及します。
自分自身や自社の選択によって取り返せない損失を被らないように、ビジネスや研究の継続性を考えた慎重なライセンス選びをしたいと思います。
条件に該当するページがございません