抖音卡通脸特效为啥用不了(抖音嘟嘟脸特效)
正确的 画你的脸与维生素E视频的秘密 卡通脸 Tik Tok有超过900万人使用特效技术。
机器心脏释放
机器之心编辑部
卡通脸 风靡全Tik Tok的特效,变得生动灵动?
说到特效,Tik Tok ;标准普尔。整个工作 能力从来都是有目共睹的。最近,风头正劲的a 卡通脸 特效。无论男女老少,使用这种特效后,都像迪士尼动画里走出来的角色一样灵动可爱。一经上线,卡通脸迅速在Tik Tok上发酵,深受用户喜爱。相关热点如 一键转换成高甜美的卡通脸 , Tik Tok所有逃跑的公主都在这里。, 展示卡通脸的洋娃娃。, 王子和公主与糖共舞。和 捕捉童话魔法失败的瞬间。都是不断衍生出来的,其中 Tik Tok所有逃跑的公主都在这里。和 捕捉童话魔法失败的瞬间。是Tik Tok的全国热点。目前该特效的用户量已经超过900w W。
卡通脸 属于3D风格特效,这类特效研发的难点主要集中在多个方面,比如多样化的CG训练数据难以获取,灵动表情难以还原,真实三维的皮肤纹理和光影难以实现,风格夸张的五官难以学习等。对此,字节跳动的智能创作团队重点在3D风格化方向进行了优化,不仅解决了上述所有问题,还沉淀了一套通用的技术解决方案。
「卡通脸」背后的研发流程创新
在过去,一个完整的三维风格化的研发;d流程分为以下模块
收集一些原始风格图片-训练StyleGan大模型-生成配对数据-手动选择可用的配对数据设计器优化P图-训练p2p小模型,然后不断重复。
传统研发的问题;d过程都非常明显迭代周期长,设计师参与性弱,不容易沉淀和复用。
在特效的研发上 卡通脸 、字节跳动 的智能创意团队采用了创新的研发流程:
从设计师开始。的目标风格效果,设计师根据算法的要求提供一些3D美术素材,然后由字节跳动的智能创作团队在DCC软件的帮助下批量渲染出多个多样的CG数据。在渲染过程中,技术团队引入更流行的AIGC技术进行数据增强,然后用GAN合成训练所需的配对数据,用自研的变形pix2pix模型进行训练,得到最终效果。
R 的流程图。卡通脸 字节跳动智能创意团队
从流程环节可以看出,这种 大大缩短了迭代周期,提高了自动化程度,也让设计师有了更高的参与度。实践表明,创新的工程环节将迭代周期从6个月缩短到1个月,方案更容易沉淀和复用。
「卡通脸」特效是怎么设计出来的
现在社交媒体上的变形特效越来越多,人们也越来越注重特效的美观和精准。为了让用户更好的达到风格化改造的效果,Tik Tok特效的设计师经过精心研究,结合流行的动画风格,设计了一套卡通人脸特效,让用户体验到动画灵动的角色风格,满足用户变美变帅的需求。
Tik Tok特效设计师对市场上现有的变换特效进行了深入的研究,发现现有的特效存在风格不吸引人、表情不够夸张、灯光效果不真实等问题。,Tik Tok特效设计师结合国内审美,重新设计了卡通脸的绘画风格,夸大了男性 美国和女人 的脸,并重新形成一个可爱的 女孩 圆脸,聪明的特点和a 男孩 拉长着脸,哈哈
,Tik Tok特效的设计师还定义了不同光照条件下的光影纹理,以满足复杂场景下的光照还原需求,使卡通人脸更加立体自然,融入日常 中也没有违和感。,设计师还做了夸张的象征性面部表情。通过使用面部捕捉技术为数码人生成面部表情CG数据。的资产,训练数据和算法不断改进,面部表情效果,可以显示用户 的个性更加灵活地产生了。
自建 CG 合成数据流,高质量训练数据可复用
3D风格特效的训练数据来源依赖于高质量的CG渲染数据,这就要求数据分布的高度多样性。,3D资产的手工建模也是一个非常耗费人力的过程,复用性也不足。往往一个项目花了很多人力时间做了一批3D资产,项目结束后就彻底废弃了。
这一次,字节跳动智能创作团队建立了一个通用和可扩展的CG合成数据工作流程。
字节跳动智能创意团队CG复合数据流流程图
该复合数据流的工作流程如下
1.通过胡迪尼 s编程生成数字资产,编程捏脸,绑骨,调整权重等。建立了逼真的数字人体模型资源库。
多元化3D数字资产
2.通过胡迪尼 建立一个美元模板。s Solaris,并导入头发、头发、头部模型、服装、表情系数等资产。以美元为参考。
皮肤映射示例
虹膜映射示例
3.随机组合资产,摄像机角度和照明环境通过胡迪尼 PDG南部。使用PDG控制工作项,并准确控制数据分发。
自动化PDG节点图
由于研发过程需要频繁提供大量渲染数据进行效果迭代,需要花费大量的计算成本和渲染等待时间。此前,该团队在Tik Tok ;标准普尔。神奇的转变 特效。
部农场用于数据渲染。而在「卡通脸」特效上,团队基于字节跳动旗下云平台火山引擎扎实的基础设施,大大降低了算力成本。字节跳动智能创作团队参考影视工业的流程,搭建了一套自研的渲染农场平台。它可以将离线任务拆解到若干个渲染机器上进行并行处理。通过火山引擎镜像平台进行镜像托管、资源池化平台进行资源申请与释放、cpu/gpu 集群进行容器动态扩缩容,再使用 nas 进行资产管理,渲染农场具备了一键扩充数千个渲染节点进行高效计算的能力。
基于此,字节跳动智能创作团队自定义了单任务处理逻辑,包括前处理、引擎渲染、后处理等步骤。并根据需要,在任何时候动态扩展 / 缩小集群规模以更大化利用算力资源。
为了进一步提高效率,让设计师更方便参与到效果优化中,技术团队还 了飞书小程序供设计师使用,通过飞书触发云端的自动化流程来迭代美术效果,在云端任务完成后,会发送消息回到飞书供设计师查看,大大提高了设计师工作的效率。
,字节跳动智能创作团队自定义了事件驱动(EventTrigger)和 Api 来打通农场、飞书平台以及云桌面平台,更大程度推进 All in one 理念,让设计师和工程师都能基于飞书和云桌面更方便地完成协同研发。
自研的渲染农场平台
AIGC 新技术的应用
随着 DALL?E 的问世,2021 年初字节跳动智能创作团队就开始了相关技术的跟进和规划,字节跳动智能创作团队在 Stable Diffusion 开源模型的基础上,构建了数据量达十亿规模的数据集,训练出两个模型,一个是通用型的模型 Diffusion Model,可以生成如油画、水墨画风格的图片;一个是动漫风格的 Diffusion Model 模型。
前不久,由字节跳动智能创作团队支持的「AI 绘画」特效在抖音上大火,采用的就是这一新技术。此次在抖音「卡通脸」上,技术团队进一步挖掘 Diffusion Model 在 3D 卡通风格上的生成能力,采用了图片生成图片的策略,对图片进行加噪,然后再用训练好的文生图模型在文本的引导下去噪。基于一个预训练好的 Stable Diffusion 模型,输入 GAN 生成的与真人图相匹配的目标 3D 风格结果图,通过精调过的一组文本关键词,引导目标风格往期望的方向靠近,Stable Diffusion 输出的结果即作为最终数据交给后续的 GAN 模型学习。
自研的形变 GAN 模型
由于抖音「卡通脸」的目标风格与原始人像相比有较大形变,直接用传统 p2p 框架难以训练出高质量效果,字节跳动智能创作团队自研了一套 p2p 形变 GAN 训练框架,对于训练大形变、强风格的卡通目标有很好的效果。字节跳动智能创作团队自研的形变 GAN 训练框架包含两个部分
1、风格化初步训练,提取卡通脸风格化信息。技术团队构建了一个风格化信息交互融合的非配对训练框架,将真人和卡通脸数据集输入到该框架就可以提取卡通脸风格化信息。该框架是一个端到端的训练框架,包含了风格化特征编码、特征融合、重建训练和风格化初步训练,训练完成后得到一个卡通脸风格化信息,用于下一步精细化训练。
2、融合卡通脸风格化信息,精细训练。由之一步得到的卡通脸风格化信息包含了风格和形变等信息,将这部分信息融合到真人图进行精细化训练,利用 p2p 相关的强监督 loss 进行配对训练,训练收敛后得到卡通脸模型。
基于以上创新的技术方案,抖音「卡通脸」不仅简化了工程链路、大幅提升迭代效率,还在大角度、表情丰富度、效果风格还原、光影一致性和多肤色匹配等方面取得了明显的优化效果。据了解,负责「卡通脸」项目的字节跳动智能创作团队自 2021 年以来就在 3D 风格化方向重点突破优化,该技术方案已支持多款 3D 风格特效取得平台爆款的成绩。
关于字节跳动智能创作团队
智能创作团队是字节跳动 AI 多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、头条等公司内众多产品线;通过火山引擎为外部 ToB 合作伙伴提供业界前沿的智能创作能力与行业解决方案。
抖音嘟嘟脸特效 抖音人脸特效怎么做