Spaces:

projecte-aina
/

matxa-alvocat-tts-ca

Running

App Files Files Community

wetdog commited on Apr 23

Commit

847328b

•

1 Parent(s): 9778fab

max input length

Browse files

Files changed (1) hide show

infer_onnx.py +38 -32

infer_onnx.py CHANGED Viewed

@@ -22,7 +22,8 @@ def intersperse(lst, item):
     result = [item] * (len(lst) * 2 + 1)
     result[1::2] = lst
     return result
 def process_text(i: int, text: str, device: torch.device, cleaner:str):
     print(f"[{i}] - Input text: {text}")
     x = torch.tensor(
@@ -152,36 +153,40 @@ def vocos_inference(mel,denoise):
 def tts(text:str, accent:str, spk_name:str, temperature:float, length_scale:float):
-    denoise=True
-    spk_id = speaker_id_dict[accent][spk_name]
-    sid = np.array([int(spk_id)]) if spk_id is not None else None
-    text_matcha , text_lengths = process_text(0,text,"cpu",cleaner=cleaners[accent])
-    model_matcha_mel = models[accent]
-    # MATCHA VOCOS
-    inputs = {
-        "x": text_matcha,
-        "x_lengths": text_lengths,
-        "scales": np.array([temperature, length_scale], dtype=np.float32),
-        "spks": sid
-    }
-    mel_t0 = perf_counter()
-    # matcha mel inference
-    mel, mel_lengths = model_matcha_mel.run(None, inputs)
-    mel_infer_secs = perf_counter() - mel_t0
-    print("Matcha Mel inference time", mel_infer_secs)
-    vocos_t0 = perf_counter()
-    # vocos inference
-    wavs_vocos = vocos_inference(mel,denoise)
-    vocos_infer_secs = perf_counter() - vocos_t0
-    print("Vocos inference time", vocos_infer_secs)
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False, dir="/home/user/app") as fp_matcha_vocos:
-        sf.write(fp_matcha_vocos.name, wavs_vocos.squeeze(0), 22050, "PCM_24")
-    print(f"RTF matcha + vocos { (mel_infer_secs + vocos_infer_secs) / (wavs_vocos.shape[1]/22050) }")
-    return fp_matcha_vocos.name
 ## GUI space
@@ -244,7 +249,8 @@ matcha_inference = gr.Interface(
         gr.Textbox(
             value="m'ha costat molt desenvolupar una veu, i ara que la tinc no estaré en silenci.",
             max_lines=1,
-            label="Input text (max 500 characters)",
         ),
         accent_dropdown,
         speaker_dropdown,

     result = [item] * (len(lst) * 2 + 1)
     result[1::2] = lst
     return result
 def process_text(i: int, text: str, device: torch.device, cleaner:str):
     print(f"[{i}] - Input text: {text}")
     x = torch.tensor(
 def tts(text:str, accent:str, spk_name:str, temperature:float, length_scale:float):
+    if len(text) > 500:
+        gr.Info("The maximum input allowed is 500 characters.")
+    else:
+        denoise=True
+        spk_id = speaker_id_dict[accent][spk_name]
+        sid = np.array([int(spk_id)]) if spk_id is not None else None
+        text_matcha , text_lengths = process_text(0,text,"cpu",cleaner=cleaners[accent])
+        model_matcha_mel = models[accent]
+        # MATCHA VOCOS
+        inputs = {
+            "x": text_matcha,
+            "x_lengths": text_lengths,
+            "scales": np.array([temperature, length_scale], dtype=np.float32),
+            "spks": sid
+        }
+        mel_t0 = perf_counter()
+        # matcha mel inference
+        mel, mel_lengths = model_matcha_mel.run(None, inputs)
+        mel_infer_secs = perf_counter() - mel_t0
+        print("Matcha Mel inference time", mel_infer_secs)
+        vocos_t0 = perf_counter()
+        # vocos inference
+        wavs_vocos = vocos_inference(mel,denoise)
+        vocos_infer_secs = perf_counter() - vocos_t0
+        print("Vocos inference time", vocos_infer_secs)
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False, dir="/home/user/app") as fp_matcha_vocos:
+            sf.write(fp_matcha_vocos.name, wavs_vocos.squeeze(0), 22050, "PCM_24")
+        print(f"RTF matcha + vocos { (mel_infer_secs + vocos_infer_secs) / (wavs_vocos.shape[1]/22050) }")
+        return fp_matcha_vocos.name
 ## GUI space
         gr.Textbox(
             value="m'ha costat molt desenvolupar una veu, i ara que la tinc no estaré en silenci.",
             max_lines=1,
+            label="Input text ",
+            info="max 500 characters",
         ),
         accent_dropdown,
         speaker_dropdown,