一起品玩»星球 › 科技 › AI创造营 › 谷歌P图神器来了！不用学不用教，输入一句话，分分钟给 ...

0
1
0

分享

返回列表发新贴

新手上路

主题

3
帖子

3
粉丝

0

加好友发私信

Ta的帖子

热门推荐

热门版块

画栈

今日 476 · 主题 6277

进入
爱漫饭

今日 473 · 主题 462

进入
追番社

今日 327 · 主题 2911

进入
游戏宅

今日 327 · 主题 312

进入
漫港湾

今日 320 · 主题 1093

进入
格子

今日 304 · 主题 398

进入

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

永恒夕阳发表于 2022-11-20 12:29:14 [显示全部楼层] 只看大图回帖奖励

回帖奖励

倒序浏览阅读模式 1 823

Pine 发自凹非寺
量子位 | 公众号 QbitAI

当你拍照片时，“模特不好好配合”怎么办？

没事！现在只用一句话就能后期P图了，还是能改变动作、表情的那种！

比如说你能轻松让鸟张开翅膀（输入“张开翅膀的鸟”即可）：

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F9d88e836j00rkx16h00emc000u000enm.jpg

又或者说，想要让一只站立的狗蹲下：

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F044405c3j00rkx16h009lc000nc00bkm.jpg

看起来还真不赖！而这个新的“P图”方法呢，名叫Imagic，是基于爆火的扩散模型（Diffusion Model）来实现的。

是的，又是扩散模型，它的能耐想必也不用多介绍了吧（那看那铺天盖地和它相关的论文就能佐证）。

那在扩散模型加持下的Imagic到底有何厉害之处，话不多说，一起来看看吧！

多达6种功能

据不完全统计，Imagic的功能就有6种。

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果，比如说输入一条站立的狗，通过变换提示文字，得到的效果是酱紫的～

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fc35799b1j00rkx16h00dic000u00070m.jpg

或者说输入一个随意站立的人，输入口令，他就“乖乖听话，任你摆布”（手动狗头）了，甚至还能凭空出现一个水杯。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F60401a9dj00rkx16h009lc000u00070m.jpg

还没看够？那再来康康Imagic其他功能：改变颜色，或者增加对象，也可以多种功能同时使用。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F793ece97j00rkx16h00dvc000u00094m.jpg

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F8a87cd49j00rkx16h00f6c000u0008nm.jpg

[size=0.28]打开网易新闻查看更多图片 [size=0.19]

总的来说，Imagic的厉害之处太多，这里就不一一详细展开了，效果可以看下图。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fb77d43d8j00rkx16i0193c000u000m3m.jpg

除了这么多功能之外，Imagic还有另外一个比较人性化的点，就是当你告诉它要如何“P图”后，它会随机生成几个不同的选项供你选择。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fa1d7dcf8j00rkx16h00n0c000u000c4m.jpg

其实这种在真实图像上编辑的模型Imagic不是第一个，在此之前就已经有很多个类似的模型。

这时就会有网友问了，“Imagic有什么厉害的点呢？”

话不多说，直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型：SDEdit、Text2LIVE与Imagic作对比。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Ffd59aa61j00rkx16i015wc000s600oim.jpg

结果很显然，Imagic完成“P图指令”的效果很好，在细节上也丝毫不逊色其他模型。

（确实妙啊）

那Imagic是如何“击败”SDEdit、Text2LIVE，实现这样的效果呢？

是怎样实现的

千言万语汇成四个字：扩散模型，在论文的标题上它都赫然在列。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Ffba2ac33j00rkx16g0029c000u00077m.jpg

具体到Imagic中，扩散模型的作用是如何发挥出来的，来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说，先给定输入的图像和目标文本，然后对目标文本进行编码，得到初始的嵌入层。

然后不断调整初始嵌入层，让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来，最终便会得到优化后的嵌入层（能够很好地重建输入图像）。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Faad6a434j00rkx16f002gc0012000p8m.jpg

第二步是对扩散模型进行微调，这时就要用到上一步已经优化之后的嵌入层，让嵌入层经过模型后重建输入图像。

在重建的过程，需要不断更改模型中损失函数的参数，以让模型适应优化后的输入层，直到能够很好地重建输入图像时为止，这样一来便得到了微调之后的模型。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fc789dcfbj00rkx16g004qc000js006am.jpg

第三步就要开始正式P图了。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fe37b102cj00rkx16g0052c000js0062m.jpg

值得一提的是，这一步除了输入初始的目标嵌入层（tgt）外，还会插入优化好的嵌入层（opt），它们的关系如下图。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F801c3231j00rkx16f000gc000x0006cm.jpg

通过变换参数，实际的效果如下图。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fdd2e5cc2j00rkx16h00epc000u000b1m.jpg

如果你想更加详细地了解Imagic，可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research，论文有两位第一作者：Bahjat Kawar和Shiran Zada，均来自以色列。

值得一提的是，Bahjat Kawar还是一位以色列理工学院在读博士，他是在Google Research实习期间完成了这项研究。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2F4ab76ab6j00rkx16i00zsc000m800m8m.jpg

而Shiran Zada今年5月刚加入Google Research，目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务，主要负责网络安全相关的项目开发。

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fac8812c6j00rkx16f000tc000b400b4m.jpg

?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F1106%2Fa2f22559j00rkx12o0037d000zk00b8p.jpg

回复

使用道具举报

已有(1)人评论

电梯直达

跳转到指定楼层

全翔达速递 发表于 2022-11-27 01:31:59

<script type="text/javascript">var jd_union_pid="1666359147085";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>

回复

使用道具举报

Archiver·手机版·小黑屋·站点地图· 一起品玩

© 2012-2026 Powered by Discuz! X3.5 Comsenz Inc.

青ICP备2025004122号-2

反馈