Upload 5 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
ZD_trainer (copy).py +137 -0
best_model.pth +3 -0
config.json +263 -0
events.out.tfevents.1713913523.lambda-01.15004.0 +3 -0
trainer_0_log.txt +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+trainer_0_log.txt filter=lfs diff=lfs merge=lfs -text

ZD_trainer (copy).py ADDED Viewed

	@@ -0,0 +1,137 @@

+import os
+# os.environ["CUDA_VISIBLE_DEVICES"] = "7"
+import wandb
+from trainer import Trainer, TrainerArgs
+from TTS.tts.configs.shared_configs import BaseDatasetConfig , CharactersConfig
+from TTS.config.shared_configs import BaseAudioConfig
+from TTS.tts.configs.vits_config import VitsConfig
+from TTS.tts.datasets import load_tts_samples
+from TTS.tts.models.vits import Vits, VitsAudioConfig
+from TTS.tts.utils.text.tokenizer import TTSTokenizer
+from TTS.utils.audio import AudioProcessor
+ # Start a wandb run with `sync_tensorboard=True`
+#wandb.init(project="persian-tts-vits-grapheme-azure-fa", group="GPU 6,7 accel mixed fp16 64x64", sync_tensorboard=True)
+# output_path = os.path.dirname(os.path.abspath(__file__))
+# output_path = output_path + '/notebook_files/runs'
+#output_path = wandb.run.dir
+output_path = "ZD_output"
+print("output path is:")
+print(output_path)
+cache_path = "cache"
+dataset_config = BaseDatasetConfig(
+    formatter="mozilla", meta_file_train="metadata.csv", path="/home/bargh1/ZD_Final"
+)
+character_config=CharactersConfig(
+  characters=' ي  ء ا ب ت ث ج ح خ د ذ ر ز ژ س ش  ع غ ف ق ل م ن ه و ۆ ی ڕ چ ڕ گ ک پ ە ڤ ھ ێ ك',
+#   characters="!¡'(),-.:;¿?ABCDEFGHIJKLMNOPRSTUVWXYZabcdefghijklmnopqrstuvwxyzáçèéêëìíîïñòóôöùúûü«°±µ»$%&‘’‚“`”„",
+  punctuations='!(),-.:;? ̠،؛؟‌<>',
+  phonemes='ˈˌːˑpbtdʈɖcɟkɡqɢʔɴŋɲɳnɱmʙrʀⱱɾɽɸβfvθðszʃʒʂʐçʝxɣχʁħʕhɦɬɮʋɹɻjɰlɭʎʟaegiouwyɪʊ̩æɑɔəɚɛɝɨ̃ʉʌʍ0123456789"#$%*+/=ABCDEFGHIJKLMNOPRSTUVWXYZ[]^_{}',
+  pad="<PAD>",
+  eos="<EOS>",
+  bos="<BOS>",
+  blank="<BLNK>",
+  characters_class="TTS.tts.models.vits.VitsCharacters",
+  )
+audio_config = BaseAudioConfig(
+     sample_rate=22050,
+     do_trim_silence=True,
+     min_level_db=-1,
+    # do_sound_norm=True,
+     signal_norm=True,
+     clip_norm=True,
+     symmetric_norm=True,
+     max_norm = 0.9,
+     resample=True,
+     win_length=1024,
+     hop_length=256,
+     num_mels=80,
+     mel_fmin=0,
+     mel_fmax=None
+ )
+vits_audio_config = VitsAudioConfig(
+    sample_rate=22050,
+#    do_sound_norm=True,
+    win_length=1024,
+    hop_length=256,
+    num_mels=80,
+    # do_trim_silence=True, #from hugging
+    mel_fmin=0,
+    mel_fmax=None
+)
+config = VitsConfig(
+    audio=vits_audio_config, #from huggingface
+    run_name="persian-tts-vits-grapheme-azure",
+    batch_size=16,
+    batch_group_size=16,
+    eval_batch_size=4,
+    num_loader_workers=4,
+    num_eval_loader_workers=2,
+    run_eval=True,
+    run_eval_steps = 200,
+    print_eval=True,
+    test_delay_epochs=-1,
+    epochs=1000,
+    save_step=200,
+    text_cleaner="basic_cleaners", #from MH
+    use_phonemes=False,
+    # phonemizer='persian_mh', #from TTS github
+    # phoneme_language="fa",
+    characters=character_config, #test without as well
+    phoneme_cache_path=os.path.join(cache_path, "phoneme_cache_grapheme_azure"),
+    compute_input_seq_cache=True,
+    print_step=200,
+    mixed_precision=False, #from TTS - True causes error "Expected reduction dim"
+    test_sentences=[
+        ["دەتوانی لەم بەرهەمە دەخوێنیت بەشێوەیەکی خوشەویست."],
+        ["ئەو پاشانی کاردەکات بە دڵخوازی و دەچێت بەهەڵە دڵی دوایی."],
+        ["سەرەتا دەبێت بە هەرێمی نەخشەی بەکاربێنیت."],
+    ],
+    output_path=output_path,
+    datasets=[dataset_config]
+)
+# INITIALIZE THE AUDIO PROCESSOR
+# Audio processor is used for feature extraction and audio I/O.
+# It mainly serves to the dataloader and the training loggers.
+ap = AudioProcessor.init_from_config(config)
+# INITIALIZE THE TOKENIZER
+# Tokenizer is used to convert text to sequences of token IDs.
+# config is updated with the default characters if not defined in the config.
+tokenizer, config = TTSTokenizer.init_from_config(config)
+# LOAD DATA SAMPLES
+# Each sample is a list of ```[text, audio_file_path, speaker_name]```
+# You can define your custom sample loader returning the list of samples.
+# Or define your custom formatter and pass it to the `load_tts_samples`.
+# Check `TTS.tts.datasets.load_tts_samples` for more details.
+train_samples, eval_samples = load_tts_samples(
+    dataset_config,
+    eval_split=True,
+    eval_split_max_size=config.eval_split_max_size,
+    eval_split_size=config.eval_split_size,
+)
+# init model
+model = Vits(config, ap, tokenizer, speaker_manager=None)
+# init the trainer and 🚀
+trainer = Trainer(
+    TrainerArgs(use_accelerate=True),
+    config,
+    output_path,
+    model=model,
+    train_samples=train_samples,
+    eval_samples=eval_samples,
+)
+trainer.fit()

best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f58c07ad9699fe61a24aa5dfabc42134678151bdfbb9f8aa27315d0c426fcae
+size 998154294

config.json ADDED Viewed

	@@ -0,0 +1,263 @@

+{
+    "output_path": "ZD_output",
+    "logger_uri": null,
+    "run_name": "persian-tts-vits-grapheme-azure",
+    "project_name": null,
+    "run_description": "\ud83d\udc38Coqui trainer run.",
+    "print_step": 200,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "wandb_entity": null,
+    "dashboard_logger": "tensorboard",
+    "save_on_interrupt": true,
+    "log_model_step": null,
+    "save_step": 200,
+    "save_n_checkpoints": 5,
+    "save_checkpoints": true,
+    "save_all_best": false,
+    "save_best_after": 0,
+    "target_loss": null,
+    "print_eval": true,
+    "test_delay_epochs": -1,
+    "run_eval": true,
+    "run_eval_steps": 200,
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "mixed_precision": false,
+    "precision": "fp16",
+    "epochs": 1000,
+    "batch_size": 16,
+    "eval_batch_size": 4,
+    "grad_clip": [
+        1000,
+        1000
+    ],
+    "scheduler_after_epoch": true,
+    "lr": 0.001,
+    "optimizer": "AdamW",
+    "optimizer_params": {
+        "betas": [
+            0.8,
+            0.99
+        ],
+        "eps": 1e-09,
+        "weight_decay": 0.01
+    },
+    "lr_scheduler": null,
+    "lr_scheduler_params": {},
+    "use_grad_scaler": false,
+    "allow_tf32": false,
+    "cudnn_enable": true,
+    "cudnn_deterministic": false,
+    "cudnn_benchmark": false,
+    "training_seed": 54321,
+    "model": "vits",
+    "num_loader_workers": 4,
+    "num_eval_loader_workers": 2,
+    "use_noise_augment": false,
+    "audio": {
+        "fft_size": 1024,
+        "sample_rate": 22050,
+        "win_length": 1024,
+        "hop_length": 256,
+        "num_mels": 80,
+        "mel_fmin": 0,
+        "mel_fmax": null
+    },
+    "use_phonemes": false,
+    "phonemizer": null,
+    "phoneme_language": null,
+    "compute_input_seq_cache": true,
+    "text_cleaner": "basic_cleaners",
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": "cache/phoneme_cache_grapheme_azure",
+    "characters": {
+        "characters_class": "TTS.tts.models.vits.VitsCharacters",
+        "vocab_dict": null,
+        "pad": "<PAD>",
+        "eos": "<EOS>",
+        "bos": "<BOS>",
+        "blank": "<BLNK>",
+        "characters": " \u064a  \u0621 \u0627 \u0628 \u062a \u062b \u062c \u062d \u062e \u062f \u0630 \u0631 \u0632 \u0698 \u0633 \u0634  \u0639 \u063a \u0641 \u0642 \u0644 \u0645 \u0646 \u0647 \u0648 \u06c6 \u06cc \u0695 \u0686 \u0695 \u06af \u06a9 \u067e \u06d5 \u06a4 \u06be \u06ce \u0643",
+        "punctuations": "!(),-.:;? \u0320\u060c\u061b\u061f\u200c<>",
+        "phonemes": "\u02c8\u02cc\u02d0\u02d1pbtd\u0288\u0256c\u025fk\u0261q\u0262\u0294\u0274\u014b\u0272\u0273n\u0271m\u0299r\u0280\u2c71\u027e\u027d\u0278\u03b2fv\u03b8\u00f0sz\u0283\u0292\u0282\u0290\u00e7\u029dx\u0263\u03c7\u0281\u0127\u0295h\u0266\u026c\u026e\u028b\u0279\u027bj\u0270l\u026d\u028e\u029faegiouwy\u026a\u028a\u0329\u00e6\u0251\u0254\u0259\u025a\u025b\u025d\u0268\u0303\u0289\u028c\u028d0123456789\"#$%*+/=ABCDEFGHIJKLMNOPRSTUVWXYZ[]^_{}",
+        "is_unique": true,
+        "is_sorted": true
+    },
+    "add_blank": true,
+    "batch_group_size": 16,
+    "loss_masking": null,
+    "min_audio_len": 1,
+    "max_audio_len": Infinity,
+    "min_text_len": 1,
+    "max_text_len": Infinity,
+    "compute_f0": false,
+    "compute_energy": false,
+    "compute_linear_spec": true,
+    "precompute_num_workers": 0,
+    "start_by_longest": false,
+    "shuffle": false,
+    "drop_last": false,
+    "datasets": [
+        {
+            "formatter": "mozilla",
+            "dataset_name": "",
+            "path": "/home/bargh1/ZD_Final",
+            "meta_file_train": "metadata.csv",
+            "ignored_speakers": null,
+            "language": "",
+            "phonemizer": "",
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        }
+    ],
+    "test_sentences": [
+        [
+            "\u062f\u06d5\u062a\u0648\u0627\u0646\u06cc \u0644\u06d5\u0645 \u0628\u06d5\u0631\u0647\u06d5\u0645\u06d5 \u062f\u06d5\u062e\u0648\u06ce\u0646\u06cc\u062a \u0628\u06d5\u0634\u06ce\u0648\u06d5\u06cc\u06d5\u06a9\u06cc \u062e\u0648\u0634\u06d5\u0648\u06cc\u0633\u062a."
+        ],
+        [
+            "\u0626\u06d5\u0648 \u067e\u0627\u0634\u0627\u0646\u06cc \u06a9\u0627\u0631\u062f\u06d5\u06a9\u0627\u062a \u0628\u06d5 \u062f\u06b5\u062e\u0648\u0627\u0632\u06cc \u0648 \u062f\u06d5\u0686\u06ce\u062a \u0628\u06d5\u0647\u06d5\u06b5\u06d5 \u062f\u06b5\u06cc \u062f\u0648\u0627\u06cc\u06cc."
+        ],
+        [
+            "\u0633\u06d5\u0631\u06d5\u062a\u0627 \u062f\u06d5\u0628\u06ce\u062a \u0628\u06d5 \u0647\u06d5\u0631\u06ce\u0645\u06cc \u0646\u06d5\u062e\u0634\u06d5\u06cc \u0628\u06d5\u06a9\u0627\u0631\u0628\u06ce\u0646\u06cc\u062a."
+        ]
+    ],
+    "eval_split_max_size": null,
+    "eval_split_size": 0.01,
+    "use_speaker_weighted_sampler": false,
+    "speaker_weighted_sampler_alpha": 1.0,
+    "use_language_weighted_sampler": false,
+    "language_weighted_sampler_alpha": 1.0,
+    "use_length_weighted_sampler": false,
+    "length_weighted_sampler_alpha": 1.0,
+    "model_args": {
+        "num_chars": 232,
+        "out_channels": 513,
+        "spec_segment_size": 32,
+        "hidden_channels": 192,
+        "hidden_channels_ffn_text_encoder": 768,
+        "num_heads_text_encoder": 2,
+        "num_layers_text_encoder": 6,
+        "kernel_size_text_encoder": 3,
+        "dropout_p_text_encoder": 0.1,
+        "dropout_p_duration_predictor": 0.5,
+        "kernel_size_posterior_encoder": 5,
+        "dilation_rate_posterior_encoder": 1,
+        "num_layers_posterior_encoder": 16,
+        "kernel_size_flow": 5,
+        "dilation_rate_flow": 1,
+        "num_layers_flow": 4,
+        "resblock_type_decoder": "1",
+        "resblock_kernel_sizes_decoder": [
+            3,
+            7,
+            11
+        ],
+        "resblock_dilation_sizes_decoder": [
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ]
+        ],
+        "upsample_rates_decoder": [
+            8,
+            8,
+            2,
+            2
+        ],
+        "upsample_initial_channel_decoder": 512,
+        "upsample_kernel_sizes_decoder": [
+            16,
+            16,
+            4,
+            4
+        ],
+        "periods_multi_period_discriminator": [
+            2,
+            3,
+            5,
+            7,
+            11
+        ],
+        "use_sdp": true,
+        "noise_scale": 1.0,
+        "inference_noise_scale": 0.667,
+        "length_scale": 1,
+        "noise_scale_dp": 1.0,
+        "inference_noise_scale_dp": 1.0,
+        "max_inference_len": null,
+        "init_discriminator": true,
+        "use_spectral_norm_disriminator": false,
+        "use_speaker_embedding": false,
+        "num_speakers": 0,
+        "speakers_file": null,
+        "d_vector_file": null,
+        "speaker_embedding_channels": 256,
+        "use_d_vector_file": false,
+        "d_vector_dim": 0,
+        "detach_dp_input": true,
+        "use_language_embedding": false,
+        "embedded_language_dim": 4,
+        "num_languages": 0,
+        "language_ids_file": null,
+        "use_speaker_encoder_as_loss": false,
+        "speaker_encoder_config_path": "",
+        "speaker_encoder_model_path": "",
+        "condition_dp_on_speaker": true,
+        "freeze_encoder": false,
+        "freeze_DP": false,
+        "freeze_PE": false,
+        "freeze_flow_decoder": false,
+        "freeze_waveform_decoder": false,
+        "encoder_sample_rate": null,
+        "interpolate_z": true,
+        "reinit_DP": false,
+        "reinit_text_encoder": false
+    },
+    "lr_gen": 0.0002,
+    "lr_disc": 0.0002,
+    "lr_scheduler_gen": "ExponentialLR",
+    "lr_scheduler_gen_params": {
+        "gamma": 0.999875,
+        "last_epoch": -1
+    },
+    "lr_scheduler_disc": "ExponentialLR",
+    "lr_scheduler_disc_params": {
+        "gamma": 0.999875,
+        "last_epoch": -1
+    },
+    "kl_loss_alpha": 1.0,
+    "disc_loss_alpha": 1.0,
+    "gen_loss_alpha": 1.0,
+    "feat_loss_alpha": 1.0,
+    "mel_loss_alpha": 45.0,
+    "dur_loss_alpha": 1.0,
+    "speaker_encoder_loss_alpha": 1.0,
+    "return_wav": true,
+    "use_weighted_sampler": false,
+    "weighted_sampler_attrs": {},
+    "weighted_sampler_multipliers": {},
+    "r": 1,
+    "num_speakers": 0,
+    "use_speaker_embedding": false,
+    "speakers_file": null,
+    "speaker_embedding_channels": 256,
+    "language_ids_file": null,
+    "use_language_embedding": false,
+    "use_d_vector_file": false,
+    "d_vector_file": null,
+    "d_vector_dim": 0,
+    "github_branch": "* dev"
+}

events.out.tfevents.1713913523.lambda-01.15004.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c53ae448214d1f559e8bfe01721d24e6b979f9f35e295612f67f18cc06c901b
+size 765208893

trainer_0_log.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0f1c8be5120e86a74c99dc0dac7d58e8e84e4a8ea82492f8b1063be6a83f7c7
+size 12234499