masato12's picture
feat: generate tokenizer.json
f9ef2f7
raw
history blame contribute delete
No virus
848 Bytes
from tokenizers import BertWordPieceTokenizer
from pathlib import Path
# パスの設定
path_dir = "."
output_dir = Path(".")
# ファイルの設定
vocab_file = Path(path_dir) / "vocab.txt"
# トークナイザーの読み込み
tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)
# トークナイザーを保存
output_file = output_dir / "tokenizer.json"
output_dir.mkdir(parents=True, exist_ok=True)
tokenizer.save(str(output_file))
# vocab.txt ファイルを tokenizer.json にリネーム
#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")
# tokenizer.json が作成されたことを確認
if (output_dir / "tokenizer.json").exists():
print("tokenizer.json が正常に作成されました。")
else:
print("tokenizer.json の作成に失敗しました。")