jinaai
/

jina-clip-v1

Feature Extraction

Transformers.js

sentence-similarity

🇪🇺 Region: EU

Model card Files Files and versions Community

gmastrapas commited on May 27

Commit

6507fd6

•

1 Parent(s): 5417f59

docs: update usage snippet

Files changed (1) hide show

README.md +10 -2

README.md CHANGED Viewed

@@ -51,6 +51,7 @@ You can use Jina CLIP directly from transformers package.
 !pip install transformers einops timm
 from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
 from numpy.linalg import norm
 cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
@@ -58,8 +59,15 @@ tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-clip-v1', trust_remote_co
 image_processor = AutoImageProcessor.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
-text_embeddings = model.encode_text(['How is the weather today?', 'What is the current weather like today?'])
-image_embeddings = model.encode_image(['raindrop.png'])
 print(cos_sim(text_embeddings[0], text_embeddings[1])) # text embedding similarity
 print(cos_sim(text_embeddings[0], image_embeddings[0])) # text-image cross-modal similarity

 !pip install transformers einops timm
 from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
 from numpy.linalg import norm
+from PIL import Image
 cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
 image_processor = AutoImageProcessor.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
+text_inputs = tokenizer(
+    ['How is the weather today?', 'What is the current weather like today?'],
+    return_tensors='pt',
+    padding='longest',
+)
+image_inputs = image_processor([Image.open('raindrop.png').load()])
+text_embeddings = model.get_text_features(text_inputs)
+image_embeddings = model.get_image_features(image_inputs)
 print(cos_sim(text_embeddings[0], text_embeddings[1])) # text embedding similarity
 print(cos_sim(text_embeddings[0], image_embeddings[0])) # text-image cross-modal similarity