Spaces:

united-link
/

taiwanese-hakka-tts

Running on Zero

App Files Files Community

txya900619 commited on Apr 17

Commit

b128fb7

•

1 Parent(s): bde200c

feat: change markdown and lable, and prepare to handle diff sample rate model and one speaker one language model

Browse files

Files changed (1) hide show

app.py +46 -16

app.py CHANGED Viewed

@@ -72,22 +72,42 @@ def text_to_speech(
             split_sentences=False,
         )
-    return words, pinyin, (16000, np.array(wav))
 def when_model_selected(model_id):
     model_config = models_config[model_id]
-    speaker_drop_down_choices = [
-        (k, v) for k, v in model_config["speaker_mapping"].items()
     ]
-    dialect_drop_down_choices = model_config["avalible_dialect"]
     use_default_emb_or_ref_radio_visible = False
     if model_config["model"].tts_model.config.model_args.speaker_encoder_model_path:
         use_default_emb_or_ref_radio_visible = True
     return (
-        gr.update(choices=speaker_drop_down_choices),
-        gr.update(choices=dialect_drop_down_choices),
-        gr.update(visible=use_default_emb_or_ref_radio_visible),
     )
@@ -116,6 +136,7 @@ with demo:
     model_drop_down = gr.Dropdown(
         models_config.keys(),
         value=default_model_id,
     )
     use_default_emb_or_custom_radio = gr.Radio(
         label="use default speaker embedding or custom speaker embedding",
@@ -139,6 +160,7 @@ with demo:
             for k, v in models_config[default_model_id]["speaker_mapping"].items()
         ],
         value=list(models_config[default_model_id]["speaker_mapping"].values())[0],
     )
     use_default_emb_or_custom_radio.input(
         use_default_emb_or_custom_radio_input,
@@ -147,8 +169,12 @@ with demo:
     )
     dialect_drop_down = gr.Dropdown(
-        choices=models_config[default_model_id]["avalible_dialect"],
-        value=models_config[default_model_id]["avalible_dialect"][0],
     )
     model_drop_down.input(
@@ -159,7 +185,13 @@ with demo:
     gr.Markdown(
         """
-        # 臺灣客語語音生成系統
         """
     )
     gr.Interface(
@@ -170,14 +202,12 @@ with demo:
             speaker_wav,
             speaker_drop_down,
             dialect_drop_down,
-            gr.Textbox(),
         ],
         outputs=[
-            gr.Textbox(interactive=False, label="word segment"),
-            gr.Textbox(interactive=False, label="pinyin"),
-            gr.Audio(
-                interactive=False, label="generated speech", show_download_button=True
-            ),
         ],
         allow_flagging="auto",
     )

             split_sentences=False,
         )
+    return (
+        words,
+        pinyin,
+        (model.tts_model.config.audio.sample_rate, np.array(wav)),
+    )
 def when_model_selected(model_id):
     model_config = models_config[model_id]
+    speaker_drop_down_choices = []
+    if "speaker_mapping" in model_config:
+        speaker_drop_down_choices = [
+            (k, v) for k, v in model_config["speaker_mapping"].items()
+        ]
+    dialect_drop_down_choices = [
+        (k, v) for k, v in model_config["dialect_mapping"].items()
     ]
     use_default_emb_or_ref_radio_visible = False
     if model_config["model"].tts_model.config.model_args.speaker_encoder_model_path:
         use_default_emb_or_ref_radio_visible = True
     return (
+        gr.update(
+            choices=speaker_drop_down_choices,
+            value=speaker_drop_down_choices[0][1] if len(speaker_drop_down_choices) > 0 else None,
+            visible=len(speaker_drop_down_choices) > 1,
+        ),
+        gr.update(
+            choices=dialect_drop_down_choices,
+            value=dialect_drop_down_choices[0][1],
+            visible=len(dialect_drop_down_choices) > 1,
+        ),
+        gr.update(visible=use_default_emb_or_ref_radio_visible, value="default"),
     )
     model_drop_down = gr.Dropdown(
         models_config.keys(),
         value=default_model_id,
+        label="模型",
     )
     use_default_emb_or_custom_radio = gr.Radio(
         label="use default speaker embedding or custom speaker embedding",
             for k, v in models_config[default_model_id]["speaker_mapping"].items()
         ],
         value=list(models_config[default_model_id]["speaker_mapping"].values())[0],
+        label="語者",
     )
     use_default_emb_or_custom_radio.input(
         use_default_emb_or_custom_radio_input,
     )
     dialect_drop_down = gr.Dropdown(
+        choices=[
+            (k, v)
+            for k, v in models_config[default_model_id]["dialect_mapping"].items()
+        ],
+        value=list(models_config[default_model_id]["dialect_mapping"].values())[0],
+        label="腔調",
     )
     model_drop_down.input(
     gr.Markdown(
         """
+        # 臺灣客語語音合成系統
+        ### Taiwanese Hakka Text-to-Speech System
+        ### 模型
+        - **sixian-1p-240417**（四縣腔，單一語者）
+        ### 研發
+        - **[李鴻欣 Hung-Shin Lee](mailto:hungshinlee@gmail.com)（諾思資訊 North Co., Ltd.）**
+        - **[陳力瑋 Li-Wei Chen](mailto:wayne900619@gmail.com)（諾思資訊 North Co., Ltd.）**
         """
     )
     gr.Interface(
             speaker_wav,
             speaker_drop_down,
             dialect_drop_down,
+            gr.Textbox(label="輸入文字"),
         ],
         outputs=[
+            gr.Textbox(interactive=False, label="斷詞"),
+            gr.Textbox(interactive=False, label="客語拼音"),
+            gr.Audio(interactive=False, label="合成語音", show_download_button=True),
         ],
         allow_flagging="auto",
     )