Mitsua
/

vroid-diffusion-test-unconditional

StableDiffusionPipeline

Inference Endpoints

Model card Files Files and versions Community

Mitsua commited on Aug 12, 2023

Commit

e4fed10

•

1 Parent(s): 71abe9a

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -12,9 +12,10 @@ pipeline_tag: text-to-image
 This is a latent unconditional diffusion model to demonstrate how U-Net training affects the generated images.
-- Text Encoder is removed. An empty text encoder is included for compatibility with stable diffusion.
 - VAE is from [Mitsua Diffusion One](https://huggingface.co/Mitsua/mitsua-diffusion-one), Mitsua Open RAIL-M License, Training Data: Public Domain/CC0 + Licensed
 - U-Net is trained from scratch using full version of [VRoid Image Dataset Lite](https://huggingface.co/datasets/Mitsua/vroid-image-dataset-lite) with some modifications.
 - VRoid is a trademark or registered trademark of Pixiv inc. in Japan and other regions.
 ## Model variant

 This is a latent unconditional diffusion model to demonstrate how U-Net training affects the generated images.
+- Pretrained Text Encoder (OpenCLIP) is removed, but an empty text encoder is included for compatibility with `StableDiffusionPipeline`.
 - VAE is from [Mitsua Diffusion One](https://huggingface.co/Mitsua/mitsua-diffusion-one), Mitsua Open RAIL-M License, Training Data: Public Domain/CC0 + Licensed
 - U-Net is trained from scratch using full version of [VRoid Image Dataset Lite](https://huggingface.co/datasets/Mitsua/vroid-image-dataset-lite) with some modifications.
+  - The architecture of the U-Net model was modified to conform to unconditional image generation. Cross-attention blocks are replaced by self-attention blocks.
 - VRoid is a trademark or registered trademark of Pixiv inc. in Japan and other regions.
 ## Model variant