Tanuki LLM とは

Tanuki LLM（タヌキ大規模言語モデル）は、公募型の貢献者コミュニティによって開発された日本語特化の大規模言語モデル（Large Language Model）です。 Tanuki-8BおよびTanuki-8×8Bの2つのモデルを開発し、 Japanese MT-Bench (JMT-Bench)において、Tanuki-8Bは10B級モデルを上回る性能を示し、 Tanuki-8×8Bは国内でフルスクラッチ開発されたモデルとしてトップレベルの性能を達成しました（2024年8月末時点）。

本プロジェクトでは、オープンソースとして学習コードや使用方法の解説動画・記事を公開し、日本語での対話・作文性能に特化したLLMの研究開発を推進しています。

主要技術・特徴

• 日本語特化LLM：日本語での高い対話・文章生成能力
• MoE（Mixture of Experts）アーキテクチャ：Tanuki-8×8Bで採用
• 継続事前学習：合成データを用いた効率的な学習手法
• アップサイクリング：国内初の成功事例
• オープンソース：GitHub、HuggingFaceで公開

松尾研LLMコンペ2025 開発メンバー募集

松尾研LLMコンペ2025の開発メンバーを募集中です。概要や応募方法についてご案内した説明会のアーカイブ動画および資料を公開しています。たくさんのご応募をお待ちしております！

一次応募締切：2025年5月30日（金）
概要説明会資料： https://x.gd/aF7Be
概要説明会アーカイブ動画： https://x.gd/JB1Ei
応募フォーム： https://x.gd/XFPYv

Tanuki LLMモデル一覧

Tanuki-8B

8億パラメータのベースモデル。コンパクトながら高性能な日本語LLMとして、 10B級モデルを上回る対話性能を実現。推論速度と性能のバランスに優れた実用的なモデルです。

8Bパラメータ最高性能

Tanuki-8×8B

MoE（Mixture of Experts）アーキテクチャを採用した高性能モデル。アップサイクリング手法により効率的に開発され、国内最高レベルの日本語LLM性能を達成しています。

MoEアーキテクチャ国内トップクラス

Tanuki LLMプロジェクト概要動画

👍 改善点・成果

合成データを継続事前学習・事後学習に用いることで、LLM の対話能力が向上することを実証しました。

アップサイクリングにより、学習途中の Tanuki-8B をベースに MoE 形式の Tanuki-8×8B を構築し、計算コストと学習失敗リスクを低減しました。国内初のアップサイクリング成功例です。

👎 制限事項・今後の課題

安全性評価は今後の課題です。

アブレーション研究により要因別の精度寄与を明らかにする必要があります。

日本語・英語特化のため、他言語対応は限定的です。

評価結果・ベンチマーク

LLM leaderboard 3 を用いたベンチマーク結果 (Japanese MT-Bench - Nejumi)

LLM leaderboard 3において、Taunuki 8B は、8B級では開発完了報告当時でSOTAの性能を示し、 Taunuki 8×8B は、Calm3-22BやChatGPT 3.5と同等の性能を示した。

Tanuki-8×8B は、オープンモデルにおいて最高性能の日本語能力を達成し、 GPT-4o-mini を上回る結果を示した。サンプル数が少ないため統計的有意差は確認できなかったものの、多様で高性能な対話・作文能力を有することが示唆された。
第一弾: 開発メンバーを中心に評価 (24年8月中旬): 1800件
第二弾: 公開版を仮運用 (24年10月–12月): 500件程度
*開発メンバーの評価関与、統計的評価にはサンプル数不足があることに注意

開発チーム

開発リーダー

畠山歓

開発メンバー（名前順，敬称略）

Atsushi Saito
Chattsu-GPT
Daichi Kohmoto
Esty
Hideaki Hayashi
hiroaki shioya
Issei Fujimoto
Jie Zeng
masaki okamura
Minami Someya
Mさん
Nishi
Nishijima
p1atdev
Rumi Nakagawa
takagi
Toshio Nishida
Yuki Namiuchi
Yukie Kawano
朝岡忠
新田千尋
岩田兼太朗
江國翔太
太田晋
片上舞
加藤純
河越淳
川村正春
菊池満帆
熊田匡仁
佐野敏幸
白石尽誠
永原恒冶
西井康隆
西前和隆
西澤克彦
林寛太
樋口千洋
堀江吏将
三橋亮太
森永雄一朗
渡邉邦宏
山口裕輝

プロジェクト運営

松尾豊
岩澤有祐
川﨑竜一

小島武
小橋洋平
原田憲旺

日本語での対話・作文性能に力点を置いた
大規模言語モデルの開発

－公募・公開型によるLLM関発プロジェクト"Tanuki"の報告－

Tanuki-8B・Tanuki-8×8B | オープンソース日本語LLM開発プロジェクト

Tanuki LLM とは

主要技術・特徴

松尾研LLMコンペ2025 開発メンバー募集

Tanuki LLMモデル一覧

Tanuki-8B

Tanuki-8×8B

Tanuki LLMプロジェクト概要動画

👍 改善点・成果

👎 制限事項・今後の課題

評価結果・ベンチマーク

Tanuki の使い方説明（勉強会シリーズ）

小型 Llama モデルの TransformerEngine を用いた事前学習の環境構築

小型 Llama モデルの Megatron-LM を用いた事前学習と継続事前学習

小型 Llama モデルの TRL ライブラリを用いた事前学習

Tanuki-8B に対して MT-Bench 等を用いた性能評価

Persona-Hub による SFT データ合成と LLM-as-a-Judge による DPO データ合成

関連ソース

開発チーム

開発リーダー

開発メンバー（名前順，敬称略）

プロジェクト運営