635 274 718

Daniel van Strien PRO

davanstrien

https://danielvanstrien.xyz/

AI & ML interests

Machine Learning Librarian

Articles

Introducing Synthetic Data Workshop: Your Gateway to Easy Synthetic Dataset Creation

Jun 20

• 12

Data Is Better Together: A Look Back and Forward

Jun 20

• 18

Synthetic dataset generation techniques: generating custom sentence similarity data

May 23

• 14

Synthetic dataset generation techniques: Self-Instruct

May 15

• 8

Can we create pedagogically valuable multi-turn synthetic datasets from Cosmopedia?

May 7

• 7

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Mar 20

• 61

Introducing IDEFICS: An Open Reproduction of State-of-the-art Visual Language Model

Aug 22, 2023

• 26

Huggy Lingo: Using Machine Learning to Improve Language Metadata on the Hugging Face Hub

Aug 2, 2023

The Hugging Face Hub for Galleries, Libraries, Archives and Museums

Jun 12, 2023

• 1

Introducing BERTopic Integration with Hugging Face Hub

May 31, 2023

• 6

Jupyter X Hugging Face

Mar 23, 2023

• 2

Image search with 🤗 datasets

Mar 16, 2022

• 5

Organizations

davanstrien's activity

New activity in vidore/colqwen2-v0.1 4 days ago

clarify VLM model used?

#1 opened 4 days ago by

davanstrien

New activity in UNESCO/nllb 6 days ago

Optimize the preprocessing and generation

#11 opened 10 days ago by

cointegrated

New activity in stabilityai/japanese-stablelm-instruct-alpha-7b 8 days ago

Expose metadata link to next version of the model : stabilityai/japanese-stablelm-instruct-alpha-7b-v2

#8 opened 8 days ago by

davanstrien

New activity in stabilityai/stable-diffusion-2 8 days ago

Expose metadata link to next version of the model : stabilityai/stable-diffusion-3-medium

#77 opened 8 days ago by

davanstrien

New activity in 01-ai/Yi-6B-Chat 8 days ago

Expose metadata link to next version of the model : 01-ai/Yi-1.5-6B-Chat

#6 opened 8 days ago by

davanstrien

New activity in 01-ai/Yi-6B 8 days ago

Expose metadata link to next version of the model : 01-ai/Yi-1.5-6B

#26 opened 8 days ago by

davanstrien

New activity in 01-ai/Yi-34B-Chat 8 days ago

Expose metadata link to next version of the model : 01-ai/Yi-1.5-34B-Chat

#23 opened 8 days ago by

davanstrien

New activity in 01-ai/Yi-9B 8 days ago

Expose metadata link to next version of the model : 01-ai/Yi-1.5-9B

#13 opened 8 days ago by

davanstrien

New activity in microsoft/phi-1_5 8 days ago

Expose metadata link to next version of the model

#90 opened 8 days ago by

davanstrien

New activity in microsoft/phi-1 8 days ago

Expose metadata link to next version of the model

#13 opened 8 days ago by

davanstrien

New activity in Qwen/Qwen-72B-Chat 8 days ago

Expose metadata link to next version of the model

#7 opened 8 days ago by

davanstrien

New activity in Qwen/Qwen2-72B 8 days ago

Expose metadata link to next version of the model

#10 opened 8 days ago by

davanstrien

Expose metadata link to next version of the model

#9 opened 8 days ago by

davanstrien

New activity in Qwen/Qwen-72B 8 days ago

Expose metadata link to next version of the model

#11 opened 8 days ago by

davanstrien

New activity in google/gemma-2b-it 8 days ago

Expose metadata link to next version of the model

#53 opened 8 days ago by

davanstrien

New activity in google/gemma-2b 8 days ago

Expose metadata link to next version of the model

#76 opened 8 days ago by

davanstrien

New activity in vidore/colpali 8 days ago

Expose metadata link to next version of the model

#10 opened 8 days ago by

davanstrien

New activity in mistralai/Mistral-7B-Instruct-v0.1 8 days ago

Add link to next version of model

#126 opened 8 days ago by

davanstrien

New activity in mistralai/Mistral-7B-Instruct-v0.2 9 days ago

Expose metadata link to next version of the model

#161 opened 9 days ago by

davanstrien

New activity in meta-llama/Meta-Llama-3-70B 9 days ago

Expose metadata link to next version of the model

#20 opened 9 days ago by

davanstrien

New activity in meta-llama/Meta-Llama-3-70B-Instruct 9 days ago

Expose metadata link to next version of the model

#67 opened 9 days ago by

davanstrien

New activity in meta-llama/Meta-Llama-3-8B-Instruct 9 days ago

Expose metadata link to next version of the model

#182 opened 9 days ago by

davanstrien

New activity in meta-llama/Meta-Llama-3-8B 9 days ago

Expose metadata link to new version of the model

#222 opened 9 days ago by

davanstrien

Expose metadata link to next version of the model

#221 opened 9 days ago by

davanstrien

commented a paper 9 days ago

Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling

Paper • 2409.14683 • Published 13 days ago • 8 •

New activity in nomic-ai/nomic-embed-text-v1 9 days ago

Add metadata link to newer version of the model

#24 opened 9 days ago by

davanstrien

New activity in NousResearch/Nous-Hermes-llama-2-7b 9 days ago

Add metadata to newer model

#10 opened 9 days ago by

davanstrien

New activity in davanstrien/finetune_colpali_v1_2-ufo-4bit 9 days ago

Can you share the notebook pls

#1 opened 9 days ago by

smjain

New activity in SpacesExamples/jupyterlab 10 days ago

Updating the Base Image

#15 opened about 1 month ago by

denizaybey

New activity in SpacesExamples/jupyterlab 11 days ago

Bump CUDA version to 12.5.1 and switch to devel image

#19 opened 11 days ago by

davanstrien

New activity in davanstrien/ufo-ColPali 15 days ago

Notes on creating this dataset

#1 opened 15 days ago by

davanstrien

New activity in Dataset-Creation-Tools/README 16 days ago

✨ Feedback and suggestions ✨

#1 opened 16 days ago by

davanstrien

New activity in SpacesExamples/jupyterlab 16 days ago

bumping jupyterlab version to the latest stable version

#18 opened 17 days ago by

MoritzLaurer

Disable introduction message

#5 opened 5 months ago by

osbm

New activity in Qwen/Qwen2-VL-72B-Instruct-AWQ 17 days ago

add library tag

#1 opened 17 days ago by

davanstrien

New activity in davanstrien/my-argilla 17 days ago

bump argilla version

#1 opened 17 days ago by

davanstrien

New activity in Gprime1977/AnimeGirlz 18 days ago

add not-for-all-audiences tag

#1 opened 18 days ago by

davanstrien

New activity in UNESCO/nllb 18 days ago

add and cache examples

#10 opened 18 days ago by

davanstrien

New activity in dmayhem93/ChatCombined 22 days ago

remove invalid task category

#1 opened 22 days ago by

davanstrien

New activity in Reza2kn/OLDI-Wikipedia-MTSeed-Persian 24 days ago

some metadata tweaks :)

#2 opened 24 days ago by

davanstrien

New activity in arcee-ai/EvolKit-20k 25 days ago

Add synthetic tag

#1 opened 25 days ago by

davanstrien

New activity in librarian-bots/huggingface-datasets-semantic-search 26 days ago

bump gradio

#1 opened 26 days ago by

davanstrien

refactor app

#2 opened 26 days ago by

davanstrien

New activity in librarian-bots/dataset-to-model-monitor 26 days ago

update attribute

#58 opened 26 days ago by

davanstrien

New activity in chattermill/fabsa 27 days ago

add language metadata

#1 opened 27 days ago by

davanstrien

New activity in ilsp/medical_mcqa_greek 27 days ago

add medical tag

#2 opened 27 days ago by

davanstrien

New activity in alex-apostolo/filtered-cuad 27 days ago

add legal tag

#1 opened 27 days ago by

davanstrien

New activity in 01-ai/Yi-Coder-1.5B-Chat 29 days ago

add base model metadata

#4 opened 29 days ago by

davanstrien

New activity in 01-ai/Yi-Coder-9B-Chat 29 days ago

add base_model metadata

#7 opened 29 days ago by

davanstrien

New activity in 01-ai/Yi-Coder-9B 29 days ago

add library tag

#1 opened 29 days ago by

davanstrien

New activity in 01-ai/Yi-Coder-1.5B-Chat 29 days ago

add library tag

#3 opened 29 days ago by

davanstrien

New activity in openbmb/MiniCPM3-4B 29 days ago

add library tag

#8 opened 29 days ago by

davanstrien

New activity in UNESCO/nllb 29 days ago

add banner to demo

#9 opened 29 days ago by

davanstrien

add banner image

#8 opened 29 days ago by

davanstrien

add disclaimer text

#7 opened 29 days ago by

davanstrien

fixes for nltk and transformers updates

#6 opened about 1 month ago by

davanstrien

New activity in davanstrien/nasa_concept_art 30 days ago

upload image data

#1 opened 30 days ago by

davanstrien

New activity in NousResearch/Hermes-3-Llama-3.1-8B-GGUF about 1 month ago

fix base model to point to the non quant version

#1 opened about 1 month ago by

davanstrien

New activity in SpacesExamples/jupyterlab about 1 month ago

Delete start_server.sh

#6 opened 5 months ago by

Akoss

Remove printing password/jupyter token into logs for safety

#11 opened 4 months ago by

MoritzLaurer

Daniel van Strien PRO

AI & ML interests

Articles

Introducing Synthetic Data Workshop: Your Gateway to Easy Synthetic Dataset Creation

Data Is Better Together: A Look Back and Forward

Synthetic dataset generation techniques: generating custom sentence similarity data

Synthetic dataset generation techniques: Self-Instruct

Can we create pedagogically valuable multi-turn synthetic datasets from Cosmopedia?

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

Data is better together

Extracting Insights from Model Cards Using Open Large Language Models

Creating open machine learning datasets? Share them on the Hugging Face Hub!

Introducing IDEFICS: An Open Reproduction of State-of-the-art Visual Language Model

Huggy Lingo: Using Machine Learning to Improve Language Metadata on the Hugging Face Hub

The Hugging Face Hub for Galleries, Libraries, Archives and Museums

Introducing BERTopic Integration with Hugging Face Hub

Jupyter X Hugging Face

Image search with 🤗 datasets

Organizations

davanstrien's activity

clarify VLM model used?

Optimize the preprocessing and generation

Expose metadata link to next version of the model : stabilityai/japanese-stablelm-instruct-alpha-7b-v2

Expose metadata link to next version of the model : stabilityai/stable-diffusion-3-medium

Expose metadata link to next version of the model : 01-ai/Yi-1.5-6B-Chat

Expose metadata link to next version of the model : 01-ai/Yi-1.5-6B

Expose metadata link to next version of the model : 01-ai/Yi-1.5-34B-Chat

Expose metadata link to next version of the model : 01-ai/Yi-1.5-9B

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Add link to next version of model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to next version of the model

Expose metadata link to new version of the model

Expose metadata link to next version of the model

Add metadata link to newer version of the model

Add metadata to newer model

Can you share the notebook pls

Updating the Base Image

Bump CUDA version to 12.5.1 and switch to devel image

Notes on creating this dataset

✨ Feedback and suggestions ✨

bumping jupyterlab version to the latest stable version

Disable introduction message

add library tag

bump argilla version

add not-for-all-audiences tag

add and cache examples

remove invalid task category

some metadata tweaks :)

Add synthetic tag

bump gradio

refactor app

update attribute

add language metadata

add medical tag

add legal tag

add base model metadata

add base_model metadata

add library tag

add library tag

add library tag

add banner to demo

add banner image

add disclaimer text

fixes for nltk and transformers updates

upload image data

fix base model to point to the non quant version

Delete start_server.sh

Remove printing password/jupyter token into logs for safety