IrbisAI commited on
Commit
c5821fb
1 Parent(s): 39b338d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -3
README.md CHANGED
@@ -16,9 +16,8 @@ Irbis-7B - это языковая модель на основе архитек
16
 
17
  - Улучшенный токенизатор - словарь токенизатора был расширен с 32к до 60к токенов, включая больше казахских слов, что улучшило эффективность токенизации для казахского языка.
18
  - Предварительное обучение - модель была предобучена на 20 ГБ преимущственно казахских и немного русских текстов для настройки с новым токенизатором.
19
- - Инструктивное обучение - проведено дообучение на 200к примеров вопросов и ответов на казахском для улучшения понимания контекста и генерации осмысленных ответов.
20
 
21
- В результате модель показывает значительно лучшее качество работы с казахским языком по сравнению с прочими моделями из открытых источников. За счет нового токенизатора увеличилась скорость генерации текста в 3-4 раза, также оптимизировалось заполнение контекстного окна. Модель хорошо отвечает на простые вопросы и может работать с контекстом, хотя еще есть место для дальнейшего улучшения.
22
 
23
  Подробнее можно почитать в [статье](soon).
24
 
@@ -54,5 +53,5 @@ generation_output = model.generate(
54
  pad_token_id=tokenizer.eos_token_id,
55
  )
56
  for s in generation_output.sequences:
57
- print(tokenizer.decode(s))
58
  ```
 
16
 
17
  - Улучшенный токенизатор - словарь токенизатора был расширен с 32к до 60к токенов, включая больше казахских слов, что улучшило эффективность токенизации для казахского языка.
18
  - Предварительное обучение - модель была предобучена на 20 ГБ преимущственно казахских и немного русских текстов для настройки с новым токенизатором.
 
19
 
20
+ В результате модель показывает значительно лучшее качество работы с казахским языком по сравнению с прочими моделями из открытых источников. За счет нового токенизатора увеличилась скорость генерации текста в 3-4 раза, также оптимизировалось заполнение контекстного окна.
21
 
22
  Подробнее можно почитать в [статье](soon).
23
 
 
53
  pad_token_id=tokenizer.eos_token_id,
54
  )
55
  for s in generation_output.sequences:
56
+ print(tokenizer.decode(s)) # Өсімдіктер ауасыз өмір сүре алмайды, сондықтан олар жасыл түсті болады.
57
  ```