6月3日晚,著名开源大模型平台Stability Al的联合首席执行官Christian Laforte,在AMD的产品发布会上宣布,文生图模型 Stable Diffusion 3于6月12日在Hugging Face开源权重。
本次开源的是稳定扩散3的介质模型,有20亿参数,在照片真实感、样式、图片质量、算力资源消耗等方面都进行了大幅度优化,将比前两代更好。
同时稳定扩散3也是对标闭源文生图产品中程、大全·E3的最佳模型之一,该系列已经被全球数百万开发者使用,很多文生视频/3D模型也借鉴了该架构。
SD3 Medium 的优点包括:
① 图像质量整体提升,能生成照片般细节逼真、色彩鲜艳、光照自然的图像;能灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、厚涂等风格化图像;具有 16 通道的 VAE,可以更好地表现手部以及面部细节。
② 能够理解复杂的自然语言提示,如空间推理、构图元素、姿势动作、风格描述等。对于「第一瓶是蓝色的,标签是“1.5”,第二瓶是红色的,标签是“SDXL”,第三瓶是绿色的,标签是“SD3”」这样复杂的内容,SD3 依旧能准确生成,而且文本效果比 Midjourney 还要准确。
③ 通过 Diffusion Transformer 架构,SD3 Medium 在英文文本拼写、字距等方面更加正确合理。Stability AI 在发布 SD3 官方公告时,头图就是直接用 SD3 生成的,效果非常惊艳。
另外此次 SD3 Medium 模型的授权范围是开放的非商业许可证,也就是说没有官方许可的情况下,模型不得用于商业用途,这点是需要大家注意的。
© 版权声明
文章版权归作者所有,未经允许请勿转载。