PFL:Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,像素级生成_PFL价格

来源:量子位

开源AI绘画扛把子,StableDiffusion背后公司StabilityAI再放大招!

全新开源模型DeepFloydIF,一下获星2千+并登上GitHub热门榜。

DeepFloydIF不光图像质量是照片级的,还解决了文生图的两大难题:

准确绘制文字。

以及准确理解空间关系。

Meta将在Instagram和Facebook中扩大NFT测试范围:6月22日消息,Meta创始人Mark Zuckerberg宣布为创作者推出更多在Facebook和Instagram上赚钱的方式,以帮助创作者为元宇宙进行建设。其中包括扩大数字收藏品的测试范围,以便更多的创作者可以在Instagram上展示他们的NFT,此后也会把这个功能带到Facebook上,用户就可以在Instagram和Facebook上交叉发帖。Meta将很快在Instagram Stories和Spark AR中测试NFT。[2022/6/22 4:44:25]

网友表示,这可是个大事,之前想让Midjourneyv5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。

DApp游戏服务平台Stardust宣布集成Polygon:2月22日消息,DApp游戏服务平台Stardust宣布集成Polygon,作为游戏发行商的最新区块链选项。据悉,Stardust为游戏开发者提供将NFT集成到其沉浸式游戏的解决方案。

据此前报道,2021年9月,DApp游戏服务平台Stardust完成500万美元融资,Framework Ventures领投,Kleiner Perkins、Blockchain Capital、Distributed Global、Maven 11、G1.vc、OP Crypto、Redbeard Ventures、Lattice Capital以及Piers Kicks(Delphi Digital)、Gabby Dizon(Yield Games) 、Sebastien Borget(The Sandbox)和Nikil Viswanathan(Alchemy)等天使投资人参投。(PRNewswire)[2022/2/23 10:09:10]

8月3日2.5亿枚XRP代币转移至Bitstamp交易所:Whale Alert检测数据显示,北京时间8月3日23:28:40,2.5亿枚XRP代币(价值超过1.77亿美元)从未知钱包(ravfDRniJw开头地址)转移到Bitstamp交易所(rsX8cp4aj9gr开头地址)。XRP分析服务Bithomp提供的详细信息表明,这些代币是由Uphold交易所转移。

与此同时,Ripple继续向火币交易所发送XRP,以支持该代币的流动性。在过去的三天里,Ripple已经将总计539.01万枚XRP币转移到火交易所。在此之前的一周,XRP每日转账总额为1586950枚。

此前报道,Ripple托管钱包在UTC时间8月1日21点再次释放10亿枚XRP,之后9亿枚XRP被重新锁定。此外,按照此前约定,Ripple联合创始人、前首席技术官Jed McCaleb的钱包“tacostand”收到超过1.823亿枚XRP。(U.Today)[2021/8/4 1:33:33]

使用DeepFloydIF,可以把指定文字巧妙放置在画面中任何地方。

StarkWare已开源零知识证明代码ethSTARK:零知识证明研发机构StarkWare已在GitHub开源ethSTARK。StarkWare称,2018年我们获得以太坊基金会的资助去探索对STARK友好的哈希函数以及开源ZKP代码。ethSTARK代码的证明速度将比现有的任何ZKP代码快20倍。

注:2018年7月份,StarkWare获得了以太坊基金会提供的400万美元资助,将研发对STARK友好的哈希函数和技术,并为生态系统提供开源代码。STARK将允许区块链在兼备隐私和后量子安全的情况下进行大规模扩展(例如分片)。(Github)[2020/7/27]

霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

声音 | OKEx CEO:会根据市场情况调整OK Jumpstart的上线频率:今日,OKEx CEO Jay Hao在社区AMA问答活动中表示:OKEx会根据市场情况调整OK Jumpstart的上线频率,同时对于抢购模式,正在做深入的研究和探讨,未来会推出新的模式,以满足更多的需求。[2019/8/15]

这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

目前DeepFloydIF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。

有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloydIF仍然基于扩散模型,但与之前的StableDiffusion相比有两大不同。

负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了像素级扩散模型。

也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

官方还提供了一组DeepFloydIF与其他AI绘画模型的直观对比。

可以看出,使用T5做文本理解的谷歌Parti和英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。

不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloydIF就成了更实际的选择。

具体生成图像上DeepFloydIF与之前模型一致,语言模型理解文本后先生成64×64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回64×64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

并且不需要对模型做微调就可直接实现。

另外,DeepFloydIF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的。

在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA。

谁是DeepFloyd

DeepFloydAIResearch是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。

主要成员只有4人,从姓氏来看均为东欧背景。

这次除了开源代码外,团队在HuggingFace上还提供了DeepFloydIF模型的在线试玩。

我们也试了试,很可惜的是目前对中文还不太支持。

原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

OneMoreThing

DeepFloydIF并不是StabilityAI昨晚在开源上的唯一动作

语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。

目前代码和模型权重已开放下载。

完整的桌面和移动界面也即将发布。

DeepfloydIF在线试玩:

https://huggingface.co/spaces/DeepFloyd/IF

代码:

https://github.com/deep-floyd/IF

StableVicuna在线试玩:

https://huggingface.co/spaces/CarperAI/StableVicuna

权重下载:

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

参考链接:

https://deepfloyd.ai/deepfloyd-if

https://stability.ai/blog/deepfloyd-if-text-to-image-model

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

https://stable-diffusion-art.com/how-stable-diffusion-work/

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

区块博客

[0:0ms0-6:245ms