Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

news/2024/5/17 19:28:31

Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型,并没有说明发布日期。模型还没发布,但API先来了!

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型,尤其是在字体和提示遵循方面。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口,来快速开发有趣的应用程序了!

与网友们的预期不同的是,这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择,难道这是另一个大招吗?

虽然模型还未开源,但StabilityAI 承诺:

我们致力于开放生成式人工智能,计划在不久的将来对 Stability AI 会员资格开放模型权重,实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻:😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着“全城最佳景观”。(A red sofa on top of a white building. Graffiti with the text “the best view in the city”.)

图2.

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。(Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.)

图3.

▲图3.

提示: 唯美的粉彩魔幻现实主义,一个男人以复古电视为头,站在沙漠中央,复古的照片。(Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.)

图4.

▲图4.

提示: 一个纸板箱,上面写着“他们说在这里不适合思考”,这个纸板箱很大,放在剧院的舞台上。(A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.)

图5.

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示,他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作,提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI,StabilityAI 将可以提供企业级 API 解决方案,确保 99.9% 的服务可用性。

不过,官网提供的 Pricing 显示,SD3 是比 SD3 Turbo 更好的模型,价格差不多比后者高了 40%!按道理说,Turbo 不是应该更贵吗?🤔

目前的每 1000 credits 的价格是 10 美元,大概可以用来购买 5000 张 SDXL 1.0 的图片,而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

图1.

▲图1.

Stable Diffusion 3 有多强?

在 2 月份发布的论文中,我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型,包括其他开源模型(包括 SDXL,SDXL Turbo,Stable Cascade,Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL・E 3,Midjourney v6 和 Ideogram v1)。

图6.

▲图6.

对比上代模型,SD3 采用了与Sora类似的 Diffusion Transformer 技术,并结合了流匹配(Flow Matching)等多项技术改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

图7. Stable Diffusion 3 的总体架构。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer(MMDiT)架构使用独立的权重集合来表示图像和语言,这与以前版本的 Stable Diffusion 相比,提高了文本理解和拼写能力。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。

具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为强大的 SD3 模型提供了基础。

网友们怎么看?

StabilityAI 创始人兼 CEO,Emad Mostaque 曾表示,与视频、语言、代码、3D、音频等一样,Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了?

不过,底下的网友们也对开源和闭源有着更宽容的理解,也希望公司能够在开源和赚钱之前找到一个平衡点,不要彻底成为下一个 ClosedAI(手动狗头)。

最后,送给各位潜在的艺术家hh:

参考资料

[1]https://stability.ai/news/stable-diffusion-3
[2]https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/
[3]https://twitter.com/StabilityAI/status/1780599024707596508
[4]https://stability.ai/news/stable-diffusion-3-research-paper
[5]https://stability.ai/news/stable-diffusion-3-api


http://www.mrgr.cn/p/16208006

相关文章

说说你对图的理解?相关操作有哪些?

一、是什么 在计算机科学中,图是一种抽象的数据类型,在图中的数据元素通常称为结点,V是所有顶点的集合,E是所有边的集合 如果两个顶点v,w,只能由v向w,而不能由w向v,那么我们就把这种情况叫做一个从 v 到 w 的有向边。v也被称做初始点,w也被称为终点。这种图就被称做有向…

【机器学习】第二节-如何选择和评估模型

目录一、经验误差与过拟合错误率精度误差训练误差/经验误差度量指标泛化误差欠拟合过拟合二、评估方法专家样本1.留出法(1)单次留出法(2)多次留出法2.交叉验证(1)k折交叉验证(2)留一法(3)P次k折交叉验证3.自助法三、性能度量四、偏差与方差 一、经验误差与过拟合 错误率 分类错…

找win的局域网ip方式

执行命令ipconfig,结果如下这样跟你同一网络的小伙伴就能找到你啦

linux input system 分析笔记

1 struct input_dev 和 struct input_handler 1.1 简介 struct input_dev表示一个设备驱动层的输入设备。 struct input_handler是处理struct input_dev上报的事件的事件处理器。 1.2 全局变量input_dev_list,input_handler_list 输入设备链表:input…

C语言中的控制语句(分支语句 if、switch、三目运算符)

程序执行的三大流程 顺序 : 从上向下, 顺序执行代码分支 : 根据条件判断, 决定执行代码的分支循环 : 让特定代码重复的执行 分支语句 条件语句用来根据不同的条件来执行不同的语句,C语言中常用的条件语句包括if语句和switch语句。 if 语句…

Ubuntu下部署gitlab

1.安装gitlab服务 1.安装依赖 在ubuntu下使用快捷键ctrl+alt+T打开命令行窗口,然后运行下面命令 sudo apt update sudo apt-get upgrade sudo apt-get install curl openssh-server ca-certificates postfixps:如果这一步有遇到弹出框的直接Tab切换到确定/ok按钮,然后回车即可…

组态控制方法

什么叫组态控制?从应用场景上来看,如果现在集成了一个系统,它既包括了生产A要用的全部I/O系统,又包括可生产B和C等等要用的全部I/O系统。但是ABC的生产I/O不一样(硬件组态不尽相同)。 这个时候我就想用一套程序(包括硬件组态)就能适配全部的ABC生产。另外我在切换硬件组…

模块介绍,包,json模块

【一】模块 1.什么是模块 模块就是一系列功能的结合体,可以直接使用 2.为什么要模块 极大地提升开发效率 3.模块的三种来源 【1】内置模块 无需下载,解释器自带,直接导入使用即可 【2】自定义模块 自己写的代码,封装成模块,自己用或者是发布到网上供别人使用 【3】第三方模…

七月论文审稿GPT第4.5版:通过15K条paper-review数据微调Llama2 70B(含各种坑)

前言 当我们3月下旬微调完Mixtral 8x7B之后(更多详见:七月论文大模型:含论文的审稿、阅读、写作、修订 ),下一个想微调的就是llama2 70B 因为之前积攒了不少微调代码和微调经验,所以3月底apple便通过5K的paper-review数据集成功…

v-bind与class,style属性的使用

class,style是各种dom元素的都具有的原生属性 class与:class的区别,直接使用class的话,后面跟的是常量,若使用:class,v-bind:class的话,后面需跟变量,可以实现动态地改变元素的样式 如下图代码: 在上述代码中,在button元素中,对class原生属性赋值了,也使用了:class的…

重温8年前项目部署

背景 同事表弟毕设,需要启动一个8年前GitHub项目! 源码:GitHub - asinfo-ssyx/KindgartenPlatform: 幼儿园互动平台 部署步骤 一、Eclipse导入项目 使用 Projects from Folder or Archive 导入 选择项目目录 点击【选择文件夹】后如下 点…

WhaleScheduler为银行业全信创环境打造统一调度管理平台解决方案

项目背景 数字金融是数字经济的重要支撑和驱动力。近年来,我国针对数字金融的发展政策频频出台,《金融科技发展规划 (2022-2025年)》、《“十四五”数字经济发展规划》、《关于银行业保险业数字化转型的指导意见》、《金融标准化“十 四五”发展规划》等相继发布,顶层设计…

架构

我们以Spring Security中Servlet实现方式来介绍Spring Security整体架构,不会具体到具体的认证、授权来介绍Spring Security架构。如果让我们自己来写一个安全框架,我们需要将我们的框架置于项目中的哪个位置?很显然是在所有的请求到达Controller之前,在访问具体的某个Cont…

天花板!充值运营平台限时返场!

限时返场活动:活动有效期:2024-04-18 ~ 2024-04-28一、近期更新介绍 提现功能完善: 提现配置:多提现方式、日期限制、频率限制、金额限制、整数限制、单日限额、留存余额、代扣税率、手续费、可提现至余额(提现配置)提现记录:个人申请提现、后台审核自动(提现记录-及后…

【Docker系列】容器访问宿主机的Mysql

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

拖拽式工作流有哪几个优势?

拖拽式工作流优势特点突出,可以助力企业实现快速、高效、低成本的流程化办公。在信息技术迅猛发展的今天,如何助力中小型企业在数字化转型的过程中平稳过渡?又是如何让中小型企业摆脱数据孤岛、成本投入高等各种瓶颈和难题?低代码技术平台是近些年较为理想的平台产品,其中…

基于springboot的图书个性化推荐系统

介绍 图书个性化推荐系统的主要使用者分为管理员和学生,实现功能包括管理员:首页、个人中心、学生管理、图书分类管理、图书信息管理、图书预约管理、退换图书管理、管理员管理、留言板管理、系统管理,学生:首页、个人中心、图书预约管理、退换图书管理、我的收藏管理,前台…

java:多线程

多线程 在java程序中同时执行多个线程,每个线程独立执行不同的任务. 可以提高程序的性能和资源利用率,增加程序的并发性. 多线程的作用 1,提高程序性能 可以将一个任务分解成多个子任务并行处理,从而提高程序的运行速度 2,提高资源利用率 可以更好地利用CPU资源,提高CPU…