from tokenizers import BertWordPieceTokenizer | |
from pathlib import Path | |
# パスの設定 | |
path_dir = "." | |
output_dir = Path(".") | |
# ファイルの設定 | |
vocab_file = Path(path_dir) / "vocab.txt" | |
# トークナイザーの読み込み | |
tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True) | |
# トークナイザーを保存 | |
output_file = output_dir / "tokenizer.json" | |
output_dir.mkdir(parents=True, exist_ok=True) | |
tokenizer.save(str(output_file)) | |
# vocab.txt ファイルを tokenizer.json にリネーム | |
#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json") | |
# tokenizer.json が作成されたことを確認 | |
if (output_dir / "tokenizer.json").exists(): | |
print("tokenizer.json が正常に作成されました。") | |
else: | |
print("tokenizer.json の作成に失敗しました。") | |