Tanuki LLM とは

Tanuki LLM(タヌキ大規模言語モデル)は、公募型の貢献者コミュニティによって開発された日本語特化の大規模言語モデル(Large Language Model)です。 Tanuki-8BおよびTanuki-8×8Bの2つのモデルを開発し、 Japanese MT-Bench (JMT-Bench)において、Tanuki-8Bは10B級モデルを上回る性能を示し、 Tanuki-8×8Bは国内でフルスクラッチ開発されたモデルとしてトップレベルの性能を達成しました(2024年8月末時点)。

本プロジェクトでは、オープンソースとして学習コードや使用方法の解説動画・記事を公開し、 日本語での対話・作文性能に特化したLLMの研究開発を推進しています。

主要技術・特徴

  • 日本語特化LLM:日本語での高い対話・文章生成能力
  • MoE(Mixture of Experts)アーキテクチャ:Tanuki-8×8Bで採用
  • 継続事前学習:合成データを用いた効率的な学習手法
  • アップサイクリング:国内初の成功事例
  • オープンソース:GitHub、HuggingFaceで公開