上月底,名为“chaindrop”的 Reddit 用户,在 r/StableDiffusion subreddit 上分享了一个由人工智能生成的视频,在业内引起了不小的争议。
视频中,一个由 AI 生成的丑陋畸形的 “威尔·史密斯”,以一种可怕的热情将一把意大利面条铲进嘴里。这一 “地狱般” 的视频迅速传播到其他形式的社交媒体,数字媒体和广播公司 Vice 表示该视频将 “伴随你的余生”,美国娱乐网刊 The A.V. Club 称其为 “AI 开发的自然终点”。仅在 Twitter 上,这一视频的观看次数就超过了 800 万。
下面这段动图是其中的部分内容。每一帧都以不同的角度展示了模拟的威尔·史密斯狼吞虎咽地吃着意大利面的场景。
自从威尔·史密斯吃意大利面的视频疯狂传播后,互联网上就出现了斯嘉丽·约翰逊和乔·拜登吃意大利面等后续报道,甚至还有史密斯吃肉丸子的视频。尽管这些可怕的视频正在成为互联网中完美且 “恐惧” 模因素材,但就像之前的文生图以及每一种 AI 生成的内容一样,文生视频(Text2Video)正加速走进我们的生活。
文生视频:你写脚本,我做视频
“威尔·史密斯吃意大利面”的视频出自开源 AI 工具 ModelScope 模型,创建这一视频的工作流程相当简单:仅需给出“Will Smith eating spaghetti”的提示,并以每秒 24 帧(FPS)的速度生成。
据了解,ModelScope 是一种 “文生视频” 扩散模型,经过训练可以通过分析收集到 LAION5B、ImageNet 和 Webvid 数据集中的数百万张图像和数千个视频,根据用户的提示来创建新视频。这包括来自 Shutterstock 的视频,因此在其输出上有幽灵般的 “Shutterstock” 水印,就像视频中所展示的那样。
目前,在文生视频这一赛道,国内外大厂和研究机构也在悄然竞争。早在去年 9 月 29 日,Meta 就发布了 Make-A-Video,在最初的公告页面上,Meta 展示了基于文本生成的示例视频,包括 “一对年轻夫妇在大雨中行走” 和 “一只正在画肖像的泰迪熊”。
同时,Make-A-Video 具备拍摄静态源图像并将其动画化的能力。例如,一张海龟的静止照片,一旦通过 AI 模型处理,就可以看起来像是在游泳。
仅仅在 Meta 推出 Make-A-Video 不到一周后,Google 便发布了 Imagen Video