File size: 848 Bytes
f9ef2f7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
from tokenizers import BertWordPieceTokenizer
from pathlib import Path

# パスの設定
path_dir = "."
output_dir = Path(".")

# ファイルの設定
vocab_file = Path(path_dir) / "vocab.txt"

# トークナイザーの読み込み
tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)

# トークナイザーを保存
output_file = output_dir / "tokenizer.json"
output_dir.mkdir(parents=True, exist_ok=True)
tokenizer.save(str(output_file))

# vocab.txt ファイルを tokenizer.json にリネーム
#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")

# tokenizer.json が作成されたことを確認
if (output_dir / "tokenizer.json").exists():
    print("tokenizer.json が正常に作成されました。")
else:
    print("tokenizer.json の作成に失敗しました。")