提示×

搜索历史

    头豹小程序头豹小程序
    联系我们头豹客服
    头豹公众号头豹公众号
    微信扫码 关注服务号立即登录
    首次扫码登录赠送VIP会员卡一天,全站报告畅读(独家版除外)
    服务号二维码
    二维码已失效,点击 重新获取
    补全个人信息×
    完善个人信息即可免费获VIP体验卡
    (通读全站报告,畅享会员权益)
    • 上传名片补全
    • 手动补全

    相册选择

    图片上传大小不能超过5MB

    性别:
    行业:
    接受通过邮件、短信等形式向我推送优质订阅信息内容
    引用授权说明:

    本报告或文章可用于微博、微信公众号、新闻网站等一般性转载,或用于企业的公开市场宣传,或用于企业投融资咨询、上市咨询等用途。这些引用可能是免费的,也可能产生额外的授权费用,头豹将根据您的引用需求向报告或文章发布者取得相应授权,并派专人与您进一步联系。

    请务必如实填写引用需求并按授权范围使用本报告或文章,如头豹发现您最终的引用目的超出所引用需求相应的授权范围,头豹有权要求您停止引用并就头豹因此遭受的损失追究您相应的法律责任。

    分享邮箱:

    智能语音行业上市屡屡受挫,TTS技术能否突出重围

    立即收藏

    智能语音行业上市屡屡受挫,TTS技术能否突出重围

    233
    2021年中国智能语音系列报告:语音合成(TTS)行业概览
    2021年中国智能语音系列报告:语音合成(TTS)行业概览

    头豹研究院

    发布时间

    2021-5-20 00:00

    全文字数:3360字,精读时间:10分钟

    引流文段:

    本文援引于报告《2021年中国智能语音系列报告:语音合成(TTS)行业概览》,首发于头豹科技创新网(www.leadleo.com)。

    头豹科技创新网内容覆盖全行业、深入垂直领域,行业报告每日更新;政策图录、数据工具助您轻松了解市场动态;智能关键词轻松搜索,直奔行业热点内容。

     

    诚挚欢迎各界精英交流合作,头豹承接行业研究、市场调研、产业规划、企业研究、商业计划、战略规划等业务,您可发送邮件或来电咨询。

                                                                                                                                  

    客服邮箱:CS@leadleo.com 咨询热线:400-072-5588

     

    智能语音企业上市程序折戟沉沙,TTS企业如何突破重围

    近年来,智能语音行业多家企业在上市程序上折戟沉沙。2月19日,上交所发布公告称,云知声和其保荐人中金公司于2021年2月18日向上交所提交了撤回IPO申请文件。根据规定,上交所决定终止云知声的发行上市审核。智能语音在上市程序上的表现不禁让市场疑惑,作为AI领域的重要组成部分,智能语音为何屡屡受挫,长期亏损?是技术原因还是市场导致?

    本文主要关注于智能语音中合成语音(TTS)部分的市场现状,了解TTS技术的现状,产业链情况,分析了TTS的技术应用场景以及未来的发展难点和趋势。

    语音合成的定义与结构

    语音合成又称文语转换(Text to Speech,TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内,也可以作为尾部环节嵌入到语音交互的整体方案之中。

    语音合成技术内部分为前端和后端。前端主要负责文本的语言解析和处理,其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。把文本上的发音的这些信息都预测出来之后,将信息送给TTS的后端系统,后台声学系统融合这些信息之后,将内容转化为语音。后端声学系统发展历程较长,从第一代的语音拼接合成,到第二代的语音参数合成,到第三代端到端合成,后端声学系统的智能化程度逐步增加,训练素材需要标记的详细程度和难度也在逐步减弱。

    语音合成模型经过长时间的发展,由最初的基于拼接合成,到参数合成,逐渐达到了现阶段感情充沛的基于端到端合成。最新一代端到端合成降低了对语言学知识的要求,可批量实现多语种的合成系统,语音自然度更高。

     

    语音合成的评价标准分为主观评价标准和客观评价标准

    语音合成的主观效果指标分为Mos值测试和ABX测试两种。Mos值评价会邀请业内专家,从音质、流畅程度、正确性、自然度、分词与停顿、音色6个方面,根据专家主观意见,对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。

    Mos值能够有效合理的评价合成语音质量,其从使用者的感官角度出发,既评测了合成语音的声音质量,也对合成语音的拟人化、自然度做出了评价,是行业内较为通用的评价机制。

    ABX测评主要是对合成效果进行对比性测试。主要方式是通过相同文本与音色来对比不同的TTS系统的语音合成效果,ABX测评人为主观判断较多,这种方式更注重通过参照对比,来评价合成语音的适宜性和效果,有一定的优越性。

    语音合成的客观性能指标主要包括实时率(RTF)、首包响应时间和并发数,实时率和首包响应时间注重与用户体验,而并发数关注的重点则是技术层面和生产成本。

     

     

    语音合成产业链中上游形成一体化趋势

    语音合成产业链的上游主要是数据产品及服务。人工智能数据产品及服务隶属于人工智能产业链的基础层,是自主研发人工智能技术的企业与机构必需的基础生产要素,其数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可扩展性。语音合成企业需要向上游购买训练数据或服务,以实现人工智能模型的训练。随着人工智能的发展,机器深度学习技术取得了快速提高,而实现机器的深度学习需要大数据和高算力的支持。这为数据产品及服务行业带来了巨大的市场。到2019年,数据标注行业市场规模已超过25亿元人民币,在未来5年,数据标记及服务行业的年复合增长率将超过15%。市场的快速发展有利于推动行业的进步,同时,有利于中游企业挑选合适的数据服务供应商。

    语音合成产业链的中游主要是TTS生产与销售企业。TTS语音主要分为通用TTS和个性化TTS。通用TTS发音相对的机械化,声韵比较平淡,但是优点在于通用TTS口齿清晰,听者可以准确获取声音信息,因此,通用TTS适用于导航、语音播报、智能客服等多数语音交互场景。由于它对音色,情感上没有过多要求,因此其制作成本整体而言较为低廉。

    个性化TTS在通用TTS的基础上更加注重音色和情感,情感和声音的表现力比通用型TTS更强,这类声音主要应用于对声音质量较高的教育,长音频、直播以及影视游戏配音等场景当中。现阶段,互联网大企业涉足个性化TTS服务这一业务较少,创新性中小企业踊跃出现。基于个性化TTS的复杂程度,相比通用型TTS,个性化TTS的制作成本相对高昂。

     

    语音合成产业链下游应用多元

    语音合成产业链下游应用多元,多用于导航、长音频、泛娱乐以及教育领域。

    导航领域是TTS常用的、普及程度较高的应用场景之一。导航领域的TTS数据量较大,语音内容覆盖范围较广,又应用于交通领域,因此导航领域对TTS的主要要求为音质清晰,音色较为温和平静,断句清晰,精度高差错小。最早的导航领域产品多数使用通用型TTS帮助用户实现听音导航,提高了产品使用的便捷性和驾驶的安全性。随着导航领域产品的逐步成熟,个性化TTS已经成为了差异化竞争的有力工具。个性化TTS最早落地于导航领域产品,其原因主要在于导航语音的话术较为固定,只有约20%变量的部分是用TTS合成出来的,基于个性化TTS的早期水平并不成熟,以此,个性化TTS的IP价值首先体现在了导航领域。

    长音频也是TTS技术发展的有利平台,首先,长音频作品大量都基于文字脚本而来,TTS技术能够大大减少将文字转为语音的时间和财务成本,将广播剧,有声书的制作时间从漫长的几个月时间缩短到几天甚至几个小时,极大的压缩了长音频的制作周期,能够更快节奏的,及时的将长音频作品呈现到用户眼前。个性化TTS现阶段的语音质量已经发展到了较高的水平,已经完全可以满足市场对于长音频的质量需求,同时个性化TTS的操作灵活,声音效果多样,限制少,能为长音频作品带来个性化的听觉体验。

     

    TTS技术可广泛应用于泛娱乐配音行业,主要应用包括影视配音、游戏配音等。以游戏为例,良好的声感能够极大程度的提高用户的游戏体验,声音也会成为游戏人物形象的一部分,单纯的人工后期配音不仅需要花费大量时间遴选最优质的配音人,还需要考虑人为因素对人工配音的影响,例如人工配音需要休息时间、续集声音的连贯性等。因此,游戏配音将会对游戏的制作产生较大影响,不顺利的游戏配音甚至会推迟游戏的发行时间,影响企业经营。而TTS则只需要输入脚本,便可以快速输出声音,并快速调整,高效的制作出贴合人物形象的声音。随着二次元ACG等亚文化在中国的兴起,中国的游戏市场逐渐被打开,用户群体越来越多,例如猫耳FM这种二次元延伸类产品的用户量从2016年的730万上升到2020年的1,000万人次,因此,为虚拟人物打造独特也将会是个性化TTS发展的沃土。随着初音未来,洛天依这种纯虚拟偶像的出现,个性化TTS可以为虚拟人物打造一整套标志性的声学系统,为虚拟人物在声音层面为用户留下深刻印象。

    教育领域也是TTS应用的广阔蓝海。从数据来看,中国在线教育需求呈增长趋势,市场规模从2016年的1,565.4亿元增长到2019年的3,225.7亿元,年增速保持在25%以上,增长迅速。在此背景下,TTS也迎来了其在教育市场上的应用机遇。TTS主要在课堂效率、教学方式,教学氛围等方面发挥出其应用优势。同时,对学前教育和语言教育也有较强的指导能力。

     

    深度见解:TTS行业格局稳定,商用落地成为难点,被市场认知成为当务之急

    TTS行业的发展可追溯到1990s,到现阶段,技术发展较为成熟。原有竞争者已经占领了结构性优势,保持其原有地位。除非新进入者能够弯道超车,或实现产品差异化,才有可能生存下来。

    实际上,市场上的用户群体对于TTS当前的认识依旧停留在机械化声音程度较高,智能化不足的阶段,而对于情感丰富,智能化程度较高,讲演水平较高,拟人化程度高的TTS认识不足,甚至会感到十分惊讶。市场对TTS软件的购买意向不高,但对于硬件捆绑软件的接受程度较高,愿意购买带有TTS功能的硬件产品,如录音笔,智能音箱等。针对这样的市场形势,一方面,企业可以加强与硬件厂商的合作,推动TTS软件的销售;另一方面,可以以更加便捷的方式,如手机软件等,推向市场。

    要实现TTS技术的商业化落地,从幕后走向前台,被大众所认知,是TTS行业的必由之路。一旦市场对于TTS技术的认知程度提高,无论是从C端还是B端,TTS的技术均能更好的得以实现。

     

    大力鸣谢

    鸣谢AI音频科技创新企业「倒映有声」对于本文的支持与帮助,感谢企业的分享。

    二维码直达

    网站二维码

    小程序二维码

    相关推荐

    panel标题
    提示主题内容
    智能语音行业上市屡屡受挫,TTS技术能否突出重围,语音交互,长音频市场,人工智能,人机交互,行业报告
    提示信息

    头豹的程序员小GG强烈建议您使用谷歌浏览器(chrome)以获得最佳用户体验。