IrbisAI commited on
Commit
39b338d
1 Parent(s): e8ba189

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +48 -1
README.md CHANGED
@@ -8,4 +8,51 @@ library_name: transformers
8
  pipeline_tag: text-generation
9
  ---
10
 
11
- # Irbis-7B
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  pipeline_tag: text-generation
9
  ---
10
 
11
+ # Irbis-7B
12
+
13
+ <img src="./irbis.jpg" width="800"/>
14
+
15
+ Irbis-7B - это языковая модель на основе архитектуры трансформеров, адаптированная для казахского языка. Основные усовершенствования, относительно базового [Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1):
16
+
17
+ - Улучшенный токенизатор - словарь токенизатора был расширен с 32к до 60к токенов, включая больше казахских слов, что улучшило эффективность токенизации для казахского языка.
18
+ - Предварительное обучение - модель была предобучена на 20 ГБ преимущственно казахских и немного русских текстов для настройки с новым токенизатором.
19
+ - Инструктивное обучение - проведено дообучение на 200к примеров вопросов и ответов на казахском для улучшения понимания контекста и генерации осмысленных ответов.
20
+
21
+ В результате модель показывает значительно лучшее качество работы с казахским языком по сравнению с прочими моделями из открытых источников. За счет нового токенизатора увеличилась скорость генерации текста в 3-4 раза, также оптимизировалось заполнение контекстного окна. Модель хорошо отвечает на простые вопросы и может работать с контекстом, хотя еще есть место для дальнейшего улучшения.
22
+
23
+ Подробнее можно почитать в [статье](soon).
24
+
25
+ ## Попробовать
26
+
27
+ ```python
28
+ from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
29
+ import torch
30
+
31
+ model_name = "IrbisAI/Irbis-7b-v0.1"
32
+ model = AutoModelForCausalLM.from_pretrained(
33
+ model_name,
34
+ return_dict=True,
35
+ torch_dtype=torch.float16,
36
+ device_map="auto")
37
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
38
+
39
+ prompt = "Сұрақ: Шөп неге жасыл?\nЖауап: "
40
+
41
+ input_ids = tokenizer([prompt], return_tensors = "pt")["input_ids"].to("cuda")
42
+
43
+ generation_config = GenerationConfig(
44
+ temperature=0.6,
45
+ repetition_penalty=1.15
46
+ )
47
+ print("Generating...")
48
+ generation_output = model.generate(
49
+ input_ids=input_ids,
50
+ generation_config=generation_config,
51
+ return_dict_in_generate=True,
52
+ output_scores=True,
53
+ max_new_tokens=2048,
54
+ pad_token_id=tokenizer.eos_token_id,
55
+ )
56
+ for s in generation_output.sequences:
57
+ print(tokenizer.decode(s))
58
+ ```