从AI绘画、AI视频换脸再到当下爆火的ChatGPT,越来越多的 AI 生成类软件如雨后春笋般冒出来,AIGC(人工智能生成内容)也成为当今大数据时代下最热门的话题。
同样的,基于互联网的音频业务全球市场规模持续增长,在线音频业务平台生态和产品形态不断多样化,为互联网用户提供了播客、直播、社交、游戏等音频服务场景,提供了人工智能技术在业务广泛应用的行业实践空间。随着AIGC和大语言模型的技术突破,为音频互动产品提供了更多创新的可能性,通过AIGC和大语言模型技术赋能业务产品创新探索将成为未来的发展趋势。
近日,白鲸技术栈携手亚马逊云科技&伊克罗德&Intel,分别在北京、广州两地举办《乘“云”而上 数智AI并行》、《游戏行业创新发展研讨会》技术沙龙活动,来自亚马逊云科技、英特尔(中国)有限公司、荔枝集团、启元世界等嘉宾,探索如何用数据+人工智能+云技术,构建企业出海、游戏行业创新新路径。
从AI降噪到AIGC赋能音频业务
作为以音频为中心的社交和娱乐平台,荔枝集团是行业内为数不多拥有自研声音技术的平台。2022年,荔枝推出了自研技术综合平台“声音云”,荔枝一直在研究AI语音相关的核心底层技术,结合市场上的前沿技术成果,正陆续将AI语音、NLP等技术应用在产品中。
在技术沙龙中,荔枝集团以“AI降噪技术”为例,音频技术团队基于以站内海量内容数据,通过自研训练的AI降噪算法,可以有效抑制互动文娱场景下音视频通话过程中的背景噪声,并保证语音无损伤,最终有效提升在多种复杂场景下的实时互动体验。
荔枝资深音频算法工程师徐潇宇介绍,互动娱乐场景相比其他场景,其技术差异方向主要在不同外设的接入、多条通道的支持、变声美声的需求、声音的理解以及链路音质的提升等方面。跟会议场景声音源主要来源采集输入通道不一样,文娱场景为了丰富娱乐性,在主播端要支持音乐播放通道、音效播放通道、屏幕共享通道等。当主播进行才艺表演或播放音乐时,整个互动娱乐场景对于音质的要求就会提高。从音频体验来讲,要让用户像在本地一样声临其境沉浸式的参与到互动场景当中,不受各种身边噪音输入干扰,这成为了音频行业的一大技术难点。
徐潇宇现场演示了不同使用场景下的“AI降噪”效果。随着算力持续增长,基于大数据训练的AI语音降噪算法具有强大的能力,使实时AI语音降噪算法在互动娱乐场景中成为可能。相比于传统的降噪算法,荔枝技术团队自研的 AI 降噪的效果有巨大提升,对直播场景可能经常会遇到敲键盘、喝饮料、背景讨论等噪声能进行有效抑制乃至降低到最低影响。