hiieu commited on
Commit
21ccb84
1 Parent(s): 2e7b738

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +43 -0
README.md CHANGED
@@ -144,6 +144,7 @@ pip install -U sentence-transformers
144
  Then you can load this model and run inference.
145
  ```python
146
  from sentence_transformers import SentenceTransformer
 
147
 
148
  # Download from the 🤗 Hub
149
  model = SentenceTransformer("hiieu/halong_embedding")
@@ -179,6 +180,48 @@ for doc, score in zip(sorted_docs, sorted_scores):
179
  # Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828
180
  ```
181
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
182
  <!--
183
  ### Direct Usage (Transformers)
184
 
 
144
  Then you can load this model and run inference.
145
  ```python
146
  from sentence_transformers import SentenceTransformer
147
+ import torch
148
 
149
  # Download from the 🤗 Hub
150
  model = SentenceTransformer("hiieu/halong_embedding")
 
180
  # Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828
181
  ```
182
 
183
+ ### Matryoshka Embeddings Inference
184
+ ```python
185
+ from sentence_transformers import SentenceTransformer
186
+ import torch.nn.functional as F
187
+ import torch
188
+
189
+ matryoshka_dim = 64
190
+ model = SentenceTransformer(
191
+ "hiieu/halong_embedding",
192
+ truncate_dim=matryoshka_dim,
193
+ )
194
+
195
+ # Define query and documents
196
+ query = "Bóng đá có lợi ích gì cho sức khỏe?"
197
+ docs = [
198
+ "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
199
+ "Bóng đá là môn thể thao phổ biến nhất thế giới.",
200
+ "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
201
+ "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
202
+ "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
203
+ ]
204
+
205
+ # Encode query and documents
206
+ query_embedding = model.encode([query])
207
+ doc_embeddings = model.encode(docs)
208
+ similarities = model.similarity(query_embedding, doc_embeddings).flatten()
209
+
210
+ # Sort documents by cosine similarity
211
+ sorted_indices = torch.argsort(similarities, descending=True)
212
+ sorted_docs = [docs[idx] for idx in sorted_indices]
213
+ sorted_scores = [similarities[idx].item() for idx in sorted_indices]
214
+
215
+ # Print sorted documents with their cosine scores
216
+ for doc, score in zip(sorted_docs, sorted_scores):
217
+ print(f"Document: {doc} - Cosine Similarity: {score:.4f}")
218
+
219
+ # Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.8045
220
+ # Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.7676
221
+ # Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6758
222
+ # Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.5931
223
+ # Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.5105
224
+ ```
225
  <!--
226
  ### Direct Usage (Transformers)
227