Model Card for VRoid Diffusion

This is a latent text-to-image diffusion model to demonstrate how U-Net training affects the generated images.

Text Encoder is from OpenCLIP ViT-H/14, MIT License, Training Data : LAION-2B
VAE is from Mitsua Diffusion One, Mitsua Open RAIL-M License, Training Data: Public Domain/CC0 + Licensed
U-Net is trained from scratch using full version of VRoid Image Dataset Lite with some modifications.
VRoid is a trademark or registered trademark of Pixiv inc. in Japan and other regions.

Model Details

vroid_diffusion_test.safetensors
- base variant.
vroid_diffusion_test_invert_red_blue.safetensors
- red and blue in the caption is swapped.
- pink and skyblue in the caption is swapped.
vroid_diffusion_test_monochrome.safetensors
- all training images are converted to grayscale.

VRoid Diffusion Unconditional
- This is unconditional image generator without CLIP.

Text-to-Image generation for research and educational purposes.

Any deployed use case of the model.

We use full version of VRoid Image Dataset Lite with some modifications.