東京工業大学(以下、東工大)は2023年12月、国立研究開発法人 産業技術総合研究所(以下、産総研)と共同で、日本語能力に優れた生成AIの基盤である大規模言語モデル(LLM)「Swallow」を開発した。同モデルは、東工大 情報理工学院の岡崎研究室と横田研究室の合同研究チームにより、既存の大規模言語モデルに日本語の文字や単語を追加し、継続学習を実施する手法で開発された。
同プロジェクトでは、Meta社が開発したLLM「Llama 2」の7B、13B、70Bのモデルをベースに開発。東工大では、主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研は、LLMの構築に必須の計算資源として、産総研柏センター内のAI橋渡しクラウド(ABCI:AI Bridging Cloud Infrastructure)を提供するとともに、継続学習によるモデルの日本語能力の改善を担当した。
Llama 2は、事前学習データの9割を英語が占める一方、日本語はわずか0.1%に留まっている。「日本語の読み書きは苦手」とされていたため、同研究チームは、日本語と英語のウェブコーパスをそれぞれ9:1の割合で事前学習を実施。また、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築。この規模は、mC4(約2397億文字)、OSCAR23.10(約740億文字)、CC-100(約258億文字)を超え、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となる。
Swallowは一般公開され、商用利用が可能。日本語に強く、オープンな大規模言語モデルが登場したことで、日本国内の学術機関・産業における大規模言語モデルの研究開発・活用の促進、製品開発や技術革新につながるはずだ。
<関連記事>
・TokyoTech-LLM 「Swallow」
(https://tokyotech-llm.github.io/swallow-llama)
同プロジェクトでは、Meta社が開発したLLM「Llama 2」の7B、13B、70Bのモデルをベースに開発。東工大では、主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研は、LLMの構築に必須の計算資源として、産総研柏センター内のAI橋渡しクラウド(ABCI:AI Bridging Cloud Infrastructure)を提供するとともに、継続学習によるモデルの日本語能力の改善を担当した。
Llama 2は、事前学習データの9割を英語が占める一方、日本語はわずか0.1%に留まっている。「日本語の読み書きは苦手」とされていたため、同研究チームは、日本語と英語のウェブコーパスをそれぞれ9:1の割合で事前学習を実施。また、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築。この規模は、mC4(約2397億文字)、OSCAR23.10(約740億文字)、CC-100(約258億文字)を超え、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となる。
Swallowは一般公開され、商用利用が可能。日本語に強く、オープンな大規模言語モデルが登場したことで、日本国内の学術機関・産業における大規模言語モデルの研究開発・活用の促進、製品開発や技術革新につながるはずだ。
<関連記事>
・TokyoTech-LLM 「Swallow」
(https://tokyotech-llm.github.io/swallow-llama)