聊天机器人ChatGPT的爆红,让生成式人工智能(AI)成为科技领域的“当红炸子鸡”。除了如今“霸屏”的类似ChatGPT的语言模型之外,生成式AI领域还有大量其他技术:文本生成图像正在成为一种主流的聊天形式,而能够将文本转换成视频的生成式AI则是“羞答答的玫瑰静悄悄地开”,有望成为该领域下一个“大事件”。
但专家也指出,尽管文本生成视频AI有望应用于娱乐、艺术等诸多领域,但从技术到伦理道德等多方面都面临挑战。
文本生成视频初露头角
纽约人工智能初创企业朗韦(Runway)公司软件架构师伊恩·桑萨韦拉在电脑上输入了一段简短的文字:森林中一条宁静的河流。
约两分钟后,该公司开发的生成视频模型Gen-2就生成了一段短视频:在阳光的照耀下,河面波光粼粼,河水蜿蜒穿过森林和草丛,轻轻撞击岩石。
朗韦公司计划近期向少数测试人员开放Gen-2服务。该公司表示,用于图像和视频合成的深度神经网络正变得越来越精确、逼真和可控,也使人们能获得极其逼真且兼具美学艺术的图像,催生合成媒体的兴起。
据“数字趋势”网站3月27日报道,仅过去7天就有5款此类AI视频生成器面世:朗韦公司的Gen-2,美易(Picsart)公司的Text2Video-Zero、Video-P2P、TemporalNet,以及中国阿里巴巴公司研发的Text-to-video。
弄潮儿向潮头立!这些系统AI竞争进入下一个阶段,微软和谷歌等行业巨头和小规模初创企业纷纷入局。
据《印度时报》报道,早在2022年9月,元宇宙平台公司就展示了“制作一段视频”(Make-A-Video)软件。只需输入几个字词,软件就能制作出无声视频。谷歌公司紧随其后,推出了生成式AI模型Imagen Video。该公司称,给出一段文本提示,Imagen Video就能生成高清晰视频。该公司还展示了另一款模型Phenaki,目标是在输入文本的基础上,制作出长视频。
《纽约时报》的报道指出,这可能是技术领域的下一个重大事件,其重要性堪比网络浏览器或iphone的诞生。
相关技术亟待改进
不过,也有专家指出,这些AI软件的质量良莠不齐,面临一些技术挑战。
比如,桑萨韦拉生成的“清泉石上流”的视频时长只有4秒,如果细看,会发现画面不太连贯,画质也比较模糊,有时还会出现怪异、扭曲、令人不安的画面。
美国《Vice》杂志网站则在3月28日的报道中,将AI生成的“威尔·史密斯吃意大利面”的视频评为最怪异AI生成视频。在Modelscope生成的视频中,面容扭曲的史密斯看起来更像由他配音的电影《鲨鱼故事》中那条怪异的鱼,他试图将成堆的面条舀进嘴里,从叉子上或手中咀嚼大块意大利面。这是一个噩梦般的定格动画视频,仅由一行无害的文字生成:威尔·史密斯吃意大利面。