REILX commited on
Commit
13a2d5f
1 Parent(s): dc5d308

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +13 -9
README.md CHANGED
@@ -12,9 +12,9 @@ tags:
12
  ---
13
  完整模型过几日上传。
14
 
15
- ### 模型 llava-Qwen2-7B-Instruct-CLIP-ZH 增强中文文字识别能力和表情包内涵识别能力,达到gpt4o、claude-3.5-sonnet的能力!!!!!
16
  1. 模型结构:</br>
17
- llava-Qwen2-7B-Instruct-CLIP-ZH = Qwen/Qwen2-7B-Instruct + multi_modal_projector + openai/clip-vit-large-patch14-336</br>
18
 
19
  2. 微调模块
20
  - vision_tower和language_model的q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj部分进行lora训练</br>
@@ -33,14 +33,18 @@ llava-Qwen2-7B-Instruct-CLIP-ZH = Qwen/Qwen2-7B-Instruct + multi_modal_projector
33
  图片数据总量1.8G,约10835张中文表情包图片。文字总量42Mb,约24332个图像文本对描述信息。
34
 
35
  5. 效果展示</br>
36
- 以下测试结果显示模型能识别图像中的文字信息,且能正确识别表情包想要表达的内涵。对比REILX/llava-1.5-7b-hf-meme-lora模型中也测试了原始llava-1.5-7b-hf模型的输出,模型无法正确识别图像中的文本信息。
37
- ![](./images/llava-qwen2-lora-01.JPG)
38
- ![](./images/llava-qwen2-lora-02.JPG)
39
- ![](./images/llava-qwen2-lora-03.JPG)
 
 
 
 
40
  以下三张图为gpt4o的识别效果</br>
41
- ![](./images/gpt4o-01.JPG)
42
- ![](./images/gpt4o-02.JPG)
43
- ![](./images/gpt4o-03.JPG)
44
 
45
  6. 代码</br>
46
  合并模型代码,合并模型之后将add_tokens.json,merge.txt,preprocessor_config.json,specital_token_map.json,tokenizer.json,vocab.json文件复制到"/保存的完整模型路径"。
 
12
  ---
13
  完整模型过几日上传。
14
 
15
+ ### 模型 llava-Qwen2-7B-Instruct-Chinese-CLIP 增强中文文字识别能力和表情包内涵识别能力,达到gpt4o、claude-3.5-sonnet的能力!!!!!
16
  1. 模型结构:</br>
17
+ llava-Qwen2-7B-Instruct-Chinese-CLIP = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-large-patch14-336px</br>
18
 
19
  2. 微调模块
20
  - vision_tower和language_model的q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj部分进行lora训练</br>
 
33
  图片数据总量1.8G,约10835张中文表情包图片。文字总量42Mb,约24332个图像文本对描述信息。
34
 
35
  5. 效果展示</br>
36
+ 以下测试结果显示模型能识别图像中的文字信息,且能正确识别表情包想要表达的内涵。对比REILX/llava-1.5-7b-hf-meme-lora模型中也测试了原始llava-1.5-7b-hf模型的输出,模型无法正确识别图像中的文本信息。</br>
37
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-01.PNG" width="600" height="200">
38
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-02.PNG" width="600" height="200">
39
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-03.PNG" width="600" height="200">
40
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-04.PNG" width="600" height="200">
41
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-05.PNG" width="600" height="200">
42
+ <img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-06.PNG" width="600" height="200">
43
+ </br>
44
  以下三张图为gpt4o的识别效果</br>
45
+ <img src="./images/gpt4o-01.JPG" width="600" height="400">
46
+ <img src="./images/gpt4o-02.JPG" width="600" height="400">
47
+ <img src="./images/gpt4o-03.JPG" width="600" height="400">
48
 
49
  6. 代码</br>
50
  合并模型代码,合并模型之后将add_tokens.json,merge.txt,preprocessor_config.json,specital_token_map.json,tokenizer.json,vocab.json文件复制到"/保存的完整模型路径"。