Spaces:

fffiloni
/

speech-to-image

Paused

fffiloni commited on Oct 22, 2022

Commit

f22b6e2

•

1 Parent(s): 8d13809

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 import torch
-from datasets import load_dataset
-import soundfile as sf
 from diffusers import DiffusionPipeline
 from transformers import (
     WhisperForConditionalGeneration,
@@ -28,14 +27,6 @@ diffuser_pipeline = DiffusionPipeline.from_pretrained(
 diffuser_pipeline.enable_attention_slicing()
 diffuser_pipeline = diffuser_pipeline.to(device)
-#————————————————————————————————————————————
-# TESTING WITH DATASET
-ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
-audio_sample = ds[3]
-text = audio_sample["text"].lower()
-speech_data = audio_sample["audio"]["array"]
 #————————————————————————————————————————————
 # GRADIO SETUP
@@ -61,8 +52,8 @@ def speech_to_text(audio_sample):
   ————————
   """)
-  #output = diffuser_pipeline(audio_sample[1])
-  output = diffuser_pipeline(speech_data)
   print(f"""
   ————————
   output: {output}

 import gradio as gr
 import torch
 from diffusers import DiffusionPipeline
 from transformers import (
     WhisperForConditionalGeneration,
 diffuser_pipeline.enable_attention_slicing()
 diffuser_pipeline = diffuser_pipeline.to(device)
 #————————————————————————————————————————————
 # GRADIO SETUP
   ————————
   """)
+  output = diffuser_pipeline(audio_sample[1])
   print(f"""
   ————————
   output: {output}