英語では精度が高いと評価されているSMLがあるh2oai/h2o-danube3-4b-chat。ただし、日本語の解答精度は高くない。日本語データで指示チューニングを実施することで精度は向上できるか?
Original: h2oai/h2o-danube3-4b-chat
Fine Tuned: yukismd/h2oai-h2o-danube3-4b-chat-JP-v1
評価ツール: FlexEval (github: https://github.com/sbintuitions/flexeval) (Document: https://sbintuitions.github.io/flexeval/)
常識的な推論能力を必要とするMultiple Choice形式の質問データセットであるCommonsenseQAの日本語版
詳細: jcommonsenseqa
AI王。日本語のクイズデータセット
詳細: aio
決まった正解がない、オープンクエスチョン形式の質問
vicuna-jaの生成結果をLLM as a Judgeでペア比較
詳細: vicuna-ja
実行コマンド: command.md
本実験では、Finetuningの効果なし