印象传媒

AI超拟真有声书还原度有多高 内幕曝光简直太意外了

发表于:2024-11-27 作者:印象报导
编辑最后更新 2024年11月27日,不到6个月,成立两年的语音合成(TTS )技术初创公司reflect Sound开始了新的融资。数字图书和广播剧"耳朵经济"蓬勃发展,人工智能(AI )合成了专业播音员的声音。与人工播音员相比,人工智能语音合成技术不仅大大缩短了配音时间,而且还节约了制作成本和人力成本。 反射音频,开始提供语音合成系统和解决方案就是这样。过去一年,reflect Audio推出的有声读物制作平台,AI播音员的制作速

不到6个月,成立两年的语音合成(TTS )技术初创公司reflect Sound开始了新的融资。

数字图书和广播剧"耳朵经济"蓬勃发展,人工智能(AI )合成了专业播音员的声音。

与人工播音员相比,人工智能语音合成技术不仅大大缩短了配音时间,而且还节约了制作成本和人力成本。 反射音频,开始提供语音合成系统和解决方案就是这样。

过去一年,reflect Audio推出的有声读物制作平台,AI播音员的制作速度超过500万字/天,录音成本可节约90%以上。 今年3月,与中央广播电视总台的音频APP云天合作,开发了基于集团IP和金融媒体的人工智能产品。 这意味着其业务已经成功成为"国家队"。

音频反射的中心团队大多来自百度、微软、Ali等公司。 这些技术专家对于小爱、东京都智能音箱、百度语音导航、百度呼叫中心等语音产品的前期基础技术建设至关重要。

reflection Sound基于端到端神经网络和深度学习合成器开发了自己的情感和情感控制模块,在音色模拟、情感显示、定制服务、多语言等方面处于行业领先地位

其融资也在迅速进行。 迄今为止,该创业公司已于2019年5月完成300万元天使轮融资,今年5月完成1000万元预混轮融资,开始目标规模的2000 - 3000万元a轮融资,以加快技术开发,加速产品在垂直场景下的落地

北京建外SOHO的一个办公室,酝酿着新的语音合成信箱争夺战。 建外SOHO是初创企业,队伍不到20人。

最近志东去了他们在北京的总部。 通过与创始团队的深入沟通,我们了解了公司诞生与成长的故事,看到了他们对AI语音技术创新的诸多探索和坚持。

1 .促进百度小米智能音箱诞生,反映声音的开始

2013年左右,毕业于北京航空航天大学云计算专业硕士的肖硕进入百度语音技术部门。 刚刚从伦敦帝国理工大学(Imperial College London )获得人工智能硕士学位的李晓)也同时加入了这个团队。 此时,百度的人工智能(AI )业务才刚刚开始。

百度工作期间,肖硕和李晓团队开发了国内首款情感语言合成系统,开发了小都智能音箱、百度呼叫中心等产品,为未来百度智能语音生态系统的建设和丰富奠定了重要基础。

此外,他还在猎豹移动投资AI创业公司Orion Sky工作,与创业团队在一年的时间里参与了小米首个夏爱智能音箱的开发项目。

近年来,小硕和李晓两次从零开始构建技术解决方案的经验,逐渐产生了创业的想法。 在Orion奋斗的经历也让他们接触到了很多创造性的知识和经验,"消除了对创业的恐惧。 "

2019年,随着百度语音技术进入成熟的发展轨道,其语音技术策略不再专注于语音合成,而是关注语音交互。 同时,硬件的改进、计算能力的提高、深度学习场景的扩展,革命性地突破了处于早期发展阶段的语音合成技术。

为此,肖和李决定离开百度,开始自己的创业生活。 2019年3月,映声在杭州正式注册成立。 由于很多百度团队的前合伙人都跟随他们创业,他们也选择将公司总部"落户"北京,成立两个月后获得了300万元的天使轮融资。

萧硕和李晓的行程正式起航,映音的挑战也才刚刚开始。

其次,关注有声读物和人工智能新闻报道,语音合成想象力巨大

但是,AI语音出现在如此广泛的卡车上,为什么反射音频会坚决选择语音同步跟踪?

肖朔表示,语音识别是语音技术最早爆发的领域,科大讯飞、云音等公司已经深入工作多年,推出智能医疗、智能翻译笔、智能会议输入系统等成熟产品,留给新运动员的市场机会很少。

在技术方面,李晓认为目前的语音识别技术已经进入识别准确率简单的成熟阶段。 相比之下,有很多语音合成的分割场景,包括广播剧、有声读物、游戏配音,甚至是亚文化虚拟偶像。 这些都是未来落地的方向,有巨大的想象空间。

例如,有声读物、广播剧等长篇语音作品的制作过程中,前期需要手工编写大量的文本脚本,中期需要配音,后期需要编辑。 整个过程需要几个月,而且需要很大的人力成本。 但是,采用语音合成技术,可以大大降低各个环节的时间和财务成本,几天到几个小时就可以完成较长的语音制作。

在电影和游戏配音中,制作团队需要花很多时间为角色选择合适的配音演员,以保证用户的观看和游戏体验。 另外,还需要考虑配音员的休息时间和续篇的声音连续性,给制作周期带来了很多不确定性。 利用语音合成技术,只需输入脚本,即可快速生成符合文字形象和工作需要的语音。

但是,由于用户的高要求,语音合成技术的运动感知,如果该技术不能实现与实际人群相同的效果水平,就很难让用户支付,与用户的购买意愿成比例地得到技术的改善效果。

"因此,语音合成是语音交互链上的最后一次打击,一旦实现,市场将变得更大。 "肖硕评价。

目前视音频主要集中在有声读物和人工智能新闻广播方面,为创作者、版权所有者和媒体平台提供高性能、低成本的音频制作服务。

对于有声读物,reflect Audio主要为有声读物的交易和制作提供平台,用户可以通过该平台实现从稿件覆盖、配音录音到音频编辑的整个云制作过程用户还可以选择自动/半自动制作、纯AI播音员、AI语音人工播音员录音等。

例如,在处理的初始阶段,该平台可以实现手稿的筛选和清洗。 如果内容是广播剧级的,也可以制作适合深入改造内容听的文本,包括配音的角色分工、人物描写、情感风格等要素。

在人工智能新闻广播方面,影音与中央广播电视总台音频客户端云天APP合作,打造人工智能新闻主播,为语音内容服务提供一站式解决方案。 与国内其他人工智能新闻主播相比,反声播报效果更加饱满自然,音色仿真、情感展示、多语言表达达到行业领先水平。

三、科技城市建设背后,语音合成三大优势

无论是有声读物还是人工智能新闻广播,语音合成领域的反射语音技术积累和创新都是必不可少的。

李晓说,传统的语音合成技术一直以来主要有两种方式,分别是拼接法和参数法。 例如,原始小米Ai采用拼接方法,几乎都是利用人的语音片段进行算法拼接和组合。 虽然有音色和自然性优良的优点,但也有操作复杂、数据量大的缺点。

"那时,我们让声优录制了将近半年的时间,总共几百个小时,把小爱刷得很好。 "李萧说。

随着端到端深度学习扩展到语音合成领域,语音合成技术取得了长足的进步。

另一方面,基于深度学习的语音合成技术的内部计算模块和网络结构更加复杂,参数和技术复杂度都远远高于传统。 另一方面,内部结构的复杂性使模型构建后的后续使用变得非常简单,无需在基础支持中使用大量数据。

一般来说,反射声音的语音合成技术主要有三个中心优点。

一个是伪像度,这是语音合成技术的核心。 语音合成通常包括有声读物、有声读物、新闻广播、呼叫中心等多个场景,根据场景不同,技术表现和动作逻辑也较大,如模拟儿童、成人、老人或动物或怪物的声音

反射音可以大幅减少声音合成与人类表现的差异,缩短合成音与人类表现的距离。 合成音的采样率可达48kHz,与工作室人员录制的声音相近,但市场上主流的合成采样率为16kHz。

在多情感方面,反映声音的语音合成技术能够更准确、细致、丰富地表达感情。 它还支持英语、中文和英语的混合合成,降低了语言之间的定制成本。

二是定制能力。 基于过去两年积累的数据,成千上万语音的真正主持人在自己的平台上,与语音合成和定制能力达到近100%的一个人的声音只有200字(约30分钟),反映出达到商业化水平。

用户只需录制10-15个词并反映声音,就可以"克隆"出相似度达到90%的声音,而"克隆"主要是声线,句子数量非常少,需要其他算法技术来弥补情绪的恢复

三是结合语音合成技术。 反射音频除了关注语音合成的单点技术外,还关注与之密切相关的上下游技术点。 例如,在有声读物的场景中,实现了反射声音的自动描绘能力。 各句的音库和情感风格与语音合成技术密切相关。

有声产业快速发展的背后,反映了有声图书的下一步

自2019年3月成立以来,reflect Sound花了一年多的时间打磨和积累基础技术,直到2020年5月正式商业化。 2020年,他们将于9月在有声读物轨道上运行,12月在广播、电影、媒体轨道上运行……最大的变化是联合创始人兼首席营销官何培成的加入。

"何经理补充了我们的营销和业务团队,将reflection Audio从纯技术出口公司转变为产品服务公司。 "肖先生说,在这次转型中,该公司在几个垂直场景下形成了一系列的产品和服务,在打开市场的同时进一步扩大了公司的收入。

"去年的重点是技术和产品阶段,收益基数低。 "贺培成表示,今年该公司收入将显著爆发式增长,收入预计同比增长700%,达到数百万美元。

反映出今年,Audio的主要目标仍然集中在技术和市场两方面。 一是加强他们已经进入的有声读物和人工智能新闻报道市场,成为模范客户,实现更大的收入和市场份额,这是他们今年的核心目标。 其次,我们希望基于独特的语音合成技术扩展到更多的业务场景。

在技术方面,李晓认为语音合成的重要挑战是如何细化情感表达。 "这将是我们继续深入下去的重点。 只有克服语音合成技术,语音合成技术才能应用于更多场景。 "他说,在长音频中也很难感觉到声音合成的自然流畅。 因为语音合成仍然集中在单个句子上。

简而言之,目前语音合成技术最大的瓶颈不再是计算能力,而是语音合成技术本身。 用更好的数学模型解释人的发音生理结构和原理,可能是语音合成技术的下一个最重要的突破。

因此,下一步反声技术的研究和发展方向,一方面要从纵深入手,不断探索纤细的情感表达,更好地控制长文本连贯强、渐弱自然的表达。 同时,低成本定制也是关键之一。

另一方面,从广度上看,应该加强与语音合成密切相关的上下游技术环节,包括自然语言处理(NLP )中的自动角色分割和文本层面的情感预测。 李认为,在更远的地方,有很多靠声音工作的场景,比如靠声音工作的虚拟角色的脸和身体的表情。

"总的来说,语音合成在有声读物和媒体中都占有明显的地位。 真正的挑战是探索增量剧本。 "肖硕表示,未来还将服务东南亚、俄罗斯、日本、韩国等非英语国家,进一步扩大海外业务范围。

结论:语音合成技术具有很大的潜力

智能语音作为天天向上的技术,已经成为各行各业智能化进程中不可缺少的工具,特别是语音交互和语音识别技术,已经渗透到人们生活和工作的各个方面。 相比之下,语音合成技术确实处于全面发展的阶段。

但是有声读物在语音合成电路中发展迅速。 据市场研究公司艾媒咨询(IMedia Consulting )报道,中国有声读物行业将从2016年的23.7亿元增长到2019年的63.6亿元,预计连续三年超过30%,到2020年将达到约95亿元。

反射声的建立无疑为语音合成技术在更多领域的融合创新提供了可借鉴的商业范例。 这个创业团队展示了语音合成技术更广阔的想象力。 从有声读物到人工智能新闻播报,从游戏到电影电视剧,从机器人到虚拟主播……看内容输出的场景似乎有很多潜在的机会。

未来,随着语音合成技术进入爆发式发展阶段,我们期待它能给各行各业带来更多创新突破和变革。

2022-05-12 13:15:14
0