openbmb
/

MiniCPM-V-2_6

Image-Text-to-Text

feature-extraction

Model card Files Files and versions Community

toilaluan commited on Sep 5

Commit

91db3b9

•

1 Parent(s): f9aadc9

Update modeling_minicpmv.py

Files changed (1) hide show

modeling_minicpmv.py +6 -1

modeling_minicpmv.py CHANGED Viewed

@@ -181,12 +181,17 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
         )
     def _decode(self, inputs_embeds, tokenizer, attention_mask, decode_text=False, **kwargs):
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         output = self.llm.generate(
             inputs_embeds=inputs_embeds,
             pad_token_id=0,
             eos_token_id=terminators,
             attention_mask=attention_mask,
             **kwargs
         )
         if decode_text:
@@ -258,7 +263,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             if stream:
                 result = self._decode_stream(model_inputs["inputs_embeds"], tokenizer, **kwargs)
             else:
-                result = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, decode_text=decode_text, **kwargs)
         if return_vision_hidden_states:
             return result, vision_hidden_states

         )
     def _decode(self, inputs_embeds, tokenizer, attention_mask, decode_text=False, **kwargs):
+        from transformers import GenerationConfig
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         output = self.llm.generate(
             inputs_embeds=inputs_embeds,
             pad_token_id=0,
             eos_token_id=terminators,
             attention_mask=attention_mask,
+            generation_config=GenerationConfig(
+                output_logits=True,
+                output_scores=True
+            )
             **kwargs
         )
         if decode_text:
             if stream:
                 result = self._decode_stream(model_inputs["inputs_embeds"], tokenizer, **kwargs)
             else:
+                result = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, decode_text=False, **kwargs)
         if return_vision_hidden_states:
             return result, vision_hidden_states