谷歌语音系统AI新科技:同真人声音无法区分

 小程序开发    |       2024-01-18

  在语音系统中起到了很大的作用。据报道,谷歌推出来一款文字转语音系统,具有极高的发音准确性,并且合成语音与真人声音难以区分。

  据国外新闻媒体报道称,如果按照最新的标准来看,人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听,而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。

  消息称,“Tacotron 2”其实已经是谷歌的第二代类似技术,它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱(通常是PDF格式),然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet(这个神经网络是从DeepMind实验室孵化而来),并将其还原为一个真实的声音。

  目前,该系统只进行了英语女声的训练(如要需要它发出男性声音的话,谷歌则需要对其进行重新“培训”)。谷歌的研究人员表示,“Tacotron 2”可完全准确发音一些很复杂的单词和人名,并根据标点符号的不同而有所区分,甚至能够完美地讲完一段绕口令。举例来说,“Tacotron2”会默认在读到大写单词的时候加重语气,也可处理少量的人为打字错误。

  同谷歌正在研发的别的核心AI技术不同,“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术,而是将对公司别的产品起到立竿见影的作用。举例来说,谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更真实的语音反馈。而一旦这一产品在未来迎来加强完善后,它显然会对提升谷歌别的产品的使用者真实的体验提供更大帮助。

  需要指出的是,所谓“语音合成技术”又称文本转语音(TTS)是如今很多移动产品和应用上不可或缺的技术模块,例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内,语音合成技术都是采用拼接方式,需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据,而且一旦说话人有所改变就要重新记录和处理,所以业界一直在寻找可以实时生成语音的方式。

  对此,谷歌旗下DeepMind实验室在2016年就推出了WaveNet深度神经网络,该网络在经过真实语音训练后能够准确的通过文本直接生成音频。在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现存技术更好、更逼真的,语音原始音频波形”。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  (Creative Technology)近日宣布与xMEMS Labs达成战略合作伙伴关系。xMEMS是固态保真的先驱者,通过将xMEMS的尖端MEMS固态扬声器

  (Creative Technology)近日宣布与xMEMS Labs达成战略合作伙伴关系。xMEMS是固态保真的先驱者,通过将

  是人类感知与交互的重要组成部分,音频应用早已覆盖了我们正常的生活的方方面面,紫光展锐T820从用户方面出发,在

  相结合,可以将这些可视化效果叠加到 AR 眼镜上,从而使用户能看到并理解他们

  。 根据世界卫生组织的统计,约有 15 亿人(占全球人口近 20%)患有听力损失。到 2050 年,这

  合成是重要的一环,其技术也在持续不断的发展。近年来,人们对情感合成的兴趣和需求慢慢的升高。情感

  。并且电路简单、操作简单便捷,低功耗,更重要的是,PM50芯片可选择21K高品质采样率,使放出的

  媒体沟通会”。沟通会上,华为终端BG手机产品线副总裁李小龙对XMAGE影像技术和北斗卫星消息功能的创

  时,研发人员非常容易被其复杂性吓倒。亚瑟· C ·克拉克声称:“任何足够先进的技术都

  奥普2022科技新品发布会圆满收官   突破一步,重新定义家电科技 在智慧生活时代,各类革

  早已遍布于生活中的各个角落。就在9月12日,随着奥普2022年品类新品发布会在杭州奥体小莲花的召开

  作为音源,基于李彦宏的《智能交通》一书通过AIGC技术所生成。 据网友称,这本有声书根本分不出到底是

  融入到实时转播,5G通讯也全力融入奥运通信保障和媒体转播当中。现场雪道,中国自研的造雪机发挥重大作用。

  软件的一项功能,它提供强大的功能,使数百万公司使用少量数据即可在几小时而不再是几周内开发富有表现力的定制

  NVIDIA 今天宣布推出一款工具,只需 30 分钟的音频数据,即可在一天之内打造类似

  2021年08月03日,小鹏P7迎来又一次OTA升级,新版本对应Xmart OS版本号为2.6.1。本次OTA重点新增了智能

  播报,还能深刻理解用户的疑问并给出相应的答案,甚至对方都不知道说话这么久的对象是机器人。智能

  ”)与华为技术有限公司(以下简称“华为”)的全面合作协议签约仪式在武汉举行,双方将聚焦打造“数字能源平台”,在智能光伏、家庭绿电、企业绿电、微

  服务机器人·智能科技专题展区作为2020年中国国际服务贸易交易会8个行业专题之一,为观众带来了一场最

  )公司商汤科技SenseTime与香港消毒科研公司金康科技近日签属合作协议,共同推出香港首座CLeanTech智能测温消毒通道设施,以创

  zip文件作为Windows PC主题。它是为我量身定做的,但是它将使您对可以做的事情知道。以下是一些创造性的想法:

  再过2个星期就是双11了,各大平台、商场已经开启预售模式,面对巨大的商品进出,物流业迎来了一群

  传”上图的辅助识别任务区域(Auxiliary recognition tasks)就是负责在生成目标语种频谱图的同时,也顺便学习一下如何预测

  。不过,出于伦理、社会影响等方面的考虑,Dessa 并未公布该项目的研究细节、模型和数据集。

  助手界,资历最老的前辈 Siri 如今却时不时要被大家拿出来用“人工智障”调侃几句,或许并不是自己不够好,而是竞争对手太过出色。

  产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式

  无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。

  德国正积极发展无人驾驶汽车,不过如今的社会是不是已经准备好迎接这项划时代

  嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说十分艰难。但

  将对我们的生活、以及全球的劳动者产生前所未有的巨大影响,全世界都已经看到人工智能、算法、大数据和智能

  声称这个演示使用的是真实的电话录音,对方是真正的商户,但录音有造假的可能性。

  先向微软致敬。每年最重要的Build开发者大会,微软都会在最黄金的时间,放下自己的王牌产品展示,用几分钟的视频介绍一个微软用最

  。在人机一体化智能系统的大趋势下,新的科技会让人们的生活方式彻底改头换面,大踏步迈向另一个新纪元。但现在,仍不断地涌现出新的令人兴奋的

  LED眼睫毛的出现引起了大家的高度关注,这款眼睫毛不仅会发光还会跟随音乐舞蹈。那么问题来了,这款发光睫毛的技术原理是如何的呢?用久了会对身体有害吗?

  当人工智能、物联网、虚拟现实、增强现实、脸部识别等技术逐渐成熟,应用层面也随之扩大。看这些

  是一块巨大的市场蛋糕,谁强大的份额多,意味着谁将会是这一个市场这样的领域的掌控者。各大科技巨头用尽方法也想在这场

  苹果手机不断曝出新品新闻,究竟苹果在十周年之际会有哪些让人眼前一亮的最

  汽车一百多年的演变,见证了各学科科技发展的历史,各大车企也一直在不遗余力地将各种

  运用到最新的车型中。2015年已经走入尾声,那么在过去这一年中,汽车产业又出现了哪些最新配置与功能呢?下面我们大家一起来回顾一下吧。

  ”的消费者。联发科正把这套成功模式复制到印度等其他新兴市场,去年推出能在没有手机网路的区域运作的智能手机晶片,手机的用

  电子发烧友网讯:一个优秀的技术工程师不可能仅仅是沉浸于一个狭小的技术领域中闭门造车,足够优秀的工程师总是能在工程设计中运用发散思维整合各种最

  无论是在电影里还是真实的生活中,打击犯罪永远是一个没有明确答案的难题。从研发

  与先进设备,到应用神秘的第六感感知,各国政府机构各司其职,为打击犯罪,保护人民而忙

  ZiiO 10”纯无线娱乐(Pure Wireless Entertainment)

  的基音和一系列的泛音所构成。这些泛音都是基音频率的位数,物理学叫分音,电声学叫

  —多项创新全面发力无线鼠标和便携音频方案市场 中国深圳及上海,2010年8月5日—业界

  全属子公司 ZiiLABS 近日在2009 籽亿高科峰会上宣布,他们将与中国高