【走进未来公司】实时转写文字、最高定价5999 “能理解会思考”的科大讯飞要做录音笔界的“宝马”?

2021-07-27 10:10:50     来源:中国科技新闻网

中国科技新闻网7月27日讯(赵芙瑶)1877年,美国发明家托马斯·爱迪生发明了人类历史上第一台留声机。这台“会说话的机器”震惊世界,正式开启了人类录音的历史。之后的数百年来,声音存储的介质从留声机、唱片、磁带、CD、录音笔一路演变,在智能手机迭代加速的今天,许多用户将手机、iPad等终端作为便携录音设备的首选,录音笔似乎在渐渐淡出人们的视野。

华经产业研究院发布的《2020-2025年中国录音笔行业市场调查研究及投资前景预测报告》显示,2015-2018年我国录音笔行业市场规模增速缓慢,2018年我国录音笔行业市场规模为21.04亿元,同比增长0.02%,随着智能录音笔的推广,2019年我国录音笔行业市场规模增长至23.17亿元,同比增长10.1%。

彼时人工智能企业科大讯飞洞察到了高端智能录音笔市场的空白:“我们委托市场调研机构调研后发现,市面上几乎没有1000元以上的高端录音笔,市场需求也较少,但我们仍然推出了AI智能录音笔,通过数据来看,我们根本不是抢占了原有的录音笔的市场份额,而是成为了整个录音笔市场当中的增量。”在中国科技新闻网联合百度百家号携手打造的“走进未来公司”系列之走进科大讯飞的交流环节中,科大讯飞副总裁兼消费者事业群副总裁李传刚这样说道。

号称一站式解决录音、输出、转写、储存等多种需求,支持多语种识别、翻译,并能做到深度降噪的科大讯飞AI智能录音笔究竟有多神乎其神?录音笔能做到区分说话人角色、将语音转写成文字时准确率高达98%并去掉语气词,背后是何种技术在支撑?

由中国科技新闻网与百度百家号携手打造的“走进未来公司”系列报道,本着“挖掘科技故事,传播创新精神”的理念,本期走进了中国最大的智能语音技术提供商科大讯飞,探秘其如何利用前沿人工智能技术推动智能录音笔产品迭代,颠覆用户对录音笔的传统认知。

中国科技新闻网/摄

定价399—5999元 高端AI智能录音笔是否“无可取代”?

提起录音笔,实际上早已不是简单的录音功能,随着技术的发展,录音笔已经迭代成为拥有语音转写、图文识别、自然语言理解等多种功能为一体的智能设备。

而要追溯录音笔的前世,不得不提及大名鼎鼎的贝尔实验室,上世纪50年代,一群科学狂人捣鼓出一套系统,虽然当时这套系统只能识别不超过10个的英文数字,但这项创举被后世公认为开启了语音识别技术的大门。

此后,IBM、Nuance、微软、谷歌等国际巨头开始在语音识别技术方面“大展拳脚”。在中国,科大讯飞也不甘落后,通过多年的努力与技术沉淀,科大讯飞在巨头林立的竞技场拼杀出一片属于自己的天地。

7月20日,在科大讯飞展厅,各式录音笔诉说着科大讯飞语音识别技术的发展历程。据了解,AI智能录音笔针对不同的人群提供了多种机型,包括腕式录音笔R1、带屏智能录音笔SR101和SR302,旗舰款大屏智能录音笔SR502和SR702、再到尊享版SR901等全线机型可供选择,定价从399元至5999元不等。

中国科技新闻网/摄

这些看似冰冷的机器,实际上已经融入了科大讯飞国际先进的智能语音技术、专业的收音降噪算法等,具有录音实时转文字、中英文边录边译、专业级降噪等核心亮点,用户还可以将所录内容上传至云端,并实现多终端的编辑与分享。

正是上述功能的附身,让录音笔有了更广泛的应用场景,转写准确率高达98%,为媒体访谈、会议沟通、学习培训等场景的记录带来颠覆式体验。

目前,众多用户将智能手机作为录音的首选,对AI智能录音笔了解甚少。不少用户会发出质疑的声音:一款录音笔定价为何比智能手机还高?产品配置是否“配得上”定价?有些手机APP也可以将语音转写成文字,消费者花高价购买AI智能录音笔的理由是什么?

带着诸多疑问,中国科技新闻网与科大讯飞讯飞极智软件研发部总监杨猛、讯飞极智产品经理任晓宁以及副总裁李传刚进行了深度交流,由内而外的剖析了AI智能录音笔的技术架构、市场定位以及未来发展趋势。

谈及为何要“死磕”录音笔产品,李传刚分享了一段鲜为人知的心路历程。他说,在2008年,他曾远赴德国宝马总部进行交流学习,自己购买的宝马三系也已经矜矜业业地工作了九年,宝马精益求精的品质与服务深深打动着自己。“我当时就下定决心,有生之年我一定要做出一款产品,这款产品要成为品类界的宝马。之后我选择做科大讯飞录音笔,希望他成为录音笔界的宝马。”李传刚抬起手臂,语气坚定地说道。

在李传刚看来,技术革新和消费升级的双重驱动下会产生新的机遇,以科大讯飞的AI技术为依托,对传统的录音笔行业进行赋能,将会产生全新的颠覆式体验,为消费者带来巨大价值。

中国科技新闻网/摄

在给录音笔命名时,李传刚也参考了宝马的命名方式,以7、5、3作为录音笔型号的开头。“之后我还推出了9系录音笔,在命名方式上超越了宝马。假如未来业务发展更加壮大,我希望能证明我是一个有情怀的小企业家。”李传刚笑称。

李传刚从两个维度说明了AI智能录音笔的不可替代性。从硬件终端来看,正如目前的智能手机可以代替从前几百万像素的数码相机,但无法撼动高清摄像机、单反的地位一样,科大讯飞AI智能录音笔的硬件采用哈曼的两个定向麦克风与六个阵列麦克风,可以实现360度环绕无死角的声音采集、15米拾声,加上主要集中在降噪技术上的精密算法,这都是手机无法实现的。

   从语音解决方案来看,购买科大讯飞录音笔终端后,将终身免费使用智能语音转写服务,

目前AI智能录音笔支持10大语种的转写,未来可能支持更多语种,而后续的升级服务用户均可以免费享受。

在定价策略方面,定价5999元的9系录音笔主要面向商务人群,选择7系的更多为教授、教师,5系用户中白领占比较高,3系和便携式则面向学生群体。购买录音笔终端并不是仅仅针对配置硬件的一次性消费,而是硬件加服务的双重消费,因为对于服务器的维护、软件功能的升级迭代都需要长期投入。

“能听会说,能理解会思考”? AI智能录音笔背后的科技底色

纵观科大讯飞AI智能录音笔的发展历程,讯飞极智软件研发部总监杨猛从技术角度解读了其升级迭代的方向。最初的录音笔仅支持将语音转写成文字,此后基于用户对于方言、多语种以及翻译的需求,对录音笔进行了新的创新。针对于脱网状态,新增了OCR识别功能,用户无需网络即可利用该功能轻松提取PPT、EXCEL、图片内的文字信息,以便快速编辑分享。

中国科技新闻网/摄

此后经过不断的调研与实践,转写后文本已经可以做到角色分离和角色标注,能够帮助用户区分不同讲话人,从而更好地进行会议记录和后期编辑,语气词的过滤也让文本更加流畅与书面化。“后期将对转写后的文本进行智能摘要,这是我们从技术角度要拓展的方向。”杨猛透露了AI智能录音笔的未来发展趋势。

那么这一切是如何实现的?这得益于科大讯飞曾提出的一种全新语音识别框架——深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),DFCNN使用大量的卷积层直接对整句语音信号进行建模。基于该框架,2016年科大讯飞又推出了深度学习全序列神经网络,将声音的全语段送至模型中,将声音的波形也就是语谱图进行频率的分解,这样既有时域信号,又有频域信号,输入端会更加丰富、模型更加精准。

“角色分离的实现则是根据语音的特性进行区分,语气词过滤方面,我们在语义的层面会根据文本的特性通过AI算法进行计算,它是一个端到端的算法模型,中间会有一些加强层、过滤层,还能利用DFCNN的框架,根据语言的结构,将语序颠倒的句子重新排列,让文本更加流畅。”杨猛表示。

“这个模型通过AI的智能匹配把语音、语速提取出来,专项对语音进行加强,将环境中的白噪、彩噪等压制下去,最终输出一个相对纯净的音频,送到后端的转写引擎,从而达到非常高的转写准确率,而且整个过程都是在录音不间断的情况下实现的,它还会根据录音的历史数据来进行动态优化,使我们的引擎模型更加智能。”杨猛用通俗易懂的语言道出了录音笔降噪背后的技术架构,即一方面对干净的语音进行加噪,并与干净语音一起进行混合训练,从而提高模型对于带噪语音的清晰度。

杨猛续称,DFCNN还可以让录音根据历史数据,对下文进行调整,精准区别于以传统的仅以语音作为序列的输入模式,大幅提高转写准确率。准确率的提升与数据采集也密不可分,科大讯飞积累了22年的数据,并且每年都会对数据进行清洗、过滤以及补充,让数据更完整有效。

在语句专业领域的识别方面,科大讯飞通过在医疗、教育、科技等各个领域数据的不断积累,以此来增加专业词汇量,并通过场景建模训练,进而提升识别率;在语义的识别方面,类似于“登机”(登基)等语义上的歧义非常之多,所以根据上下文进行计算和判断,帮助提升文本准确率至关重要。

随着录音笔应用场景的不断丰富,技术的迭代与升级,科大讯飞曾提出的让机器“能听会说,能理解会思考”的愿景正在实现。从AI智能录音笔终端的表现来看,支持多语言转写、专业级降噪说明其“能听”;转写准确率高达98%、能根据上下文对文本进行动态优化说明其“能理解”;能够区分说话人角色、根据语言的结构,将语序颠倒的句子重新排列说明其“会思考”。目前,科大讯飞已推出便携式智能腕式录音笔,更轻、更薄、更聪明、更智慧将是其不断探索的目标。

科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号(kjxw001)及微博(中国科技新闻网)
微信公众号
微博

推荐阅读
已加载全部内容
点击加载更多