aixsatoshi
commited on
Commit
•
94a3267
1
Parent(s):
328f0b8
Update README.md
Browse files
README.md
CHANGED
@@ -5,21 +5,22 @@ license: cc-by-4.0
|
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
|
6 |
|
7 |
注:bf16での使用を想定しています。
|
8 |
-
量子化推論する場合は、bf16
|
9 |
|
10 |
**目的**
|
11 |
|
12 |
-
Mixtral-8x7B
|
13 |
-
|
14 |
|
15 |
**学習データセット**
|
16 |
|
17 |
学習データセットとして、下記のDPOデータセットを使用しています。
|
18 |
-
|
19 |
|
20 |
Chatbot Arena Conversations JA (calm2) Dataset
|
21 |
-
lmsys/chatbot_arena_conversationsのユーザ入力(CC-BY 4.0
|
22 |
-
|
|
|
23 |
[cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
|
24 |
|
25 |
**evaluation**
|
@@ -69,15 +70,7 @@ num_fewshot: 2, batch_size: 1
|
|
69 |
|jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
|
70 |
| | |f1 |78.7550| | |
|
71 |
|
72 |
-
**考察**
|
73 |
-
|
74 |
-
追加の事前学習なく安定した日本語出力が可能となったのは以下の作用と考えました。
|
75 |
-
未学習のモデルでは、日本語のシグナルが弱く言語選択が不安定になっていると推測されます。
|
76 |
-
Loraのみでも日本語コードへのバイアスを一定レベル強めることが可能となり、
|
77 |
-
もともと学習していた日本語のシグナルを抽出しやすくなったと考えられました。
|
78 |
|
79 |
**その他**
|
80 |
|
81 |
-
|
82 |
-
学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。
|
83 |
-
一定以上の出力すると、その後のtokenの日本語バイアスが安定するのかもしれないです。
|
|
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
|
6 |
|
7 |
注:bf16での使用を想定しています。
|
8 |
+
量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
|
9 |
|
10 |
**目的**
|
11 |
|
12 |
+
Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
|
13 |
+
元の性能を維持しながら、日本語生成を安定させる方法として、Loraの効果を検証しました。
|
14 |
|
15 |
**学習データセット**
|
16 |
|
17 |
学習データセットとして、下記のDPOデータセットを使用しています。
|
18 |
+
DPO trainingはVRAM消費が多く、今回はchosenのデータを使用したsft学習しています。
|
19 |
|
20 |
Chatbot Arena Conversations JA (calm2) Dataset
|
21 |
+
指示文 : [lmsys/chatbot_arena_conversations](https://huggingface.co/datasets/lmsys/chatbot_arena_conversations)のユーザ入力(CC-BY 4.0)を利用。
|
22 |
+
指示文の和訳 : [facebookの翻訳モデル(MIT License)](https://huggingface.co/facebook/wmt21-dense-24-wide-en-x)が使用されています。
|
23 |
+
応答文 : calm2-7b-chat(Apache 2.0)の出力です。
|
24 |
[cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
|
25 |
|
26 |
**evaluation**
|
|
|
70 |
|jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
|
71 |
| | |f1 |78.7550| | |
|
72 |
|
|
|
|
|
|
|
|
|
|
|
|
|
73 |
|
74 |
**その他**
|
75 |
|
76 |
+
Lora学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。
|
|
|
|