WillHeld
/

DiVA-llama-3-v0-8b

Feature Extraction

Model card Files Files and versions Community

WillHeld commited on Jul 27

Commit

259eb63

•

1 Parent(s): 39645d5

Update modeling_diva.py

Files changed (1) hide show

modeling_diva.py +3 -3

modeling_diva.py CHANGED Viewed

@@ -179,7 +179,7 @@ class DiVAModel(PreTrainedModel):
         return outputs
     def generate(
-        self, audio, prompt, do_sample=False, logits_processor=None, max_new_tokens=128
     ):
         inputs = self.processor(audio, return_tensors="pt", sampling_rate=16_000)
         input_features = inputs.input_features.to(self.speech_encoder_device)
@@ -191,9 +191,9 @@ class DiVAModel(PreTrainedModel):
             output_device=self.llama_decoder.model.embed_tokens.weight.device,
         ).squeeze()
-        if prompt != None and prompt != "":
             user_prompt_text = torch.tensor(
-                self.tokenizer(prompt, add_special_tokens=False)["input_ids"],
                 device=self.pre_user_suffix.device,
             )
             prefix = torch.cat(

         return outputs
     def generate(
+        self, audio, text_prompt, do_sample=False, logits_processor=None, max_new_tokens=128
     ):
         inputs = self.processor(audio, return_tensors="pt", sampling_rate=16_000)
         input_features = inputs.input_features.to(self.speech_encoder_device)
             output_device=self.llama_decoder.model.embed_tokens.weight.device,
         ).squeeze()
+        if text_prompt != None and text_prompt != "":
             user_prompt_text = torch.tensor(
+                self.tokenizer(text_prompt, add_special_tokens=False)["input_ids"],
                 device=self.pre_user_suffix.device,
             )
             prefix = torch.cat(