021-31666777
您好,欢迎光临工博士,我们将竭诚为您服务 点击这里给我发消息
 
首页 > 资讯 > 行业趋势 > 正文业内资讯 企业新闻 行业趋势 产品应用 方案应用 人物专访 机器人 其他资讯 本站原创 新零售 

谷歌开源AI能区分声音 准确率达92%

放大字体  缩小字体 发布日期:2018-11-29  来源:机器人网  浏览次数:133

据VentureBeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。

谷歌AI

 

谷歌AI研究部门在最新名为《FullySupervisedSpeakerDiarization》的论文和相关博客文章中,研究人员描述了一种新的AI系统,它“能以一种更有效的方式识别声音”。

 

这套系统涉及到Speakerdiarization任务,即需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

 

这篇论文的作者声称,核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NISTSRE2000CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。

 

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。

 

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”

 

在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speakerdiarization系统就可以进行端到端训练。

工博士工业品商城声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与商城(www.gongboshi.com)联系,本网站将迅速给您回应并做处理。
联系电话:021-31666777
新闻、技术文章投稿QQ:3267146135  投稿邮箱:news@gongboshi.com
分享到: 

分享与收藏:  资讯搜索  告诉好友  关闭窗口  打印本文 本文关键字:人工智能 

新闻视频

 
推荐资讯
最新文章
 
 
客户服务:您好,欢迎光临,我们将竭诚为您服务 广告业务:您好,欢迎光临,我们将竭诚为您服务 会员管理:您好,欢迎光临,我们将竭诚为您服务 售后服务:您好,欢迎光临,我们将竭诚为您服务 新闻投稿:您好,欢迎光临,我们将竭诚为您服务 战略合作:您好,欢迎光临,我们将竭诚为您服务