语音识别技术竟然发展如此迅速

语音识别是指机器/程序接收、解释声音,或理解和执行口头命令的能力。随着人工智能和智能助手的崛起,语音识别已经得到了广泛应用。

语音识别系统使消费者只需通过与之交谈即可与技术进行交互,从而实现免提请求、提醒和其他简单任务。

语音识别的工作原理

计算机上的语音识别软件要求将模拟音频转换为数字信号,称为模数转换。计算机如要解密信号,必须具有单词或音节的电子数据库或词汇表,以及用于将该数据与信号进行比较的快速手段。语音模式存储在硬盘上,并在程序运行时加载到内存中。比较器依据A/D转换器的输出检查这些存储的模式,是模式识别的动作。

实际上,语音识别程序的有效词汇量的大小与安装它的计算机的随机存取存储器容量直接相关。如果将整个词汇表加载到RAM中,与搜索硬盘驱动器中的某些匹配项相比,语音识别程序的运行速度要快许多倍。处理速度也很关键,因为它会影响计算机在RAM中搜索匹配的速度。

虽然语音识别技术起源于个人电脑,但它在移动设备和智慧家产品的商业领域都获得了认可。智能手机的普及开启了向消费者口袋添加语音识别技术的机会,而家庭设备,如Google Home和Amazon Echo,将语音识别技术带入了客厅和厨房。语音识别与日益稳定的物联网传感器相结合,为以前缺乏智能功能的许多消费产品增加了技术优势。

随着语音识别技术的使用变得更频繁,以及更多用户与之交互,有语音识别软件的公司将拥有更多的数据和信息,以供给支持语音识别系统的神经网络,从而提高语音识别产品的功能和准确性。

怎样使用语音识别

随着人工智能、机器学习和消费者接受度的提高,语音识别的用途也迅速增长。从谷歌到亚马逊,到苹果的家庭数字助理都应用了语音识别软件,以便与用户进行互动。消费者使用语音识别技术的方式因产品而异,但可以包括将语音转录为文本,设置提醒,搜索互联网以及回答简单的问题和请求,例如播放音乐、或共享天气、交通信息。

语音识别的优缺点

语音识别使消费者可以通过直接与他们的Google Home,Amazon Alexa或其他语音识别技术工具交谈,以实现多任务。通过使用机器学习和复杂的算法,语音识别技术可以快速将您的口语转换为书面文本。

虽然准确率正在提高,但所有语音识别系统和程序都会出错。背景噪音可能产生错误输入,可以通过在安静的房间中使用该系统来避免。单词听起来也有问题,但拼写不同,含义不同-例如,“hear”和“here”。有一天,使用存储的上下文信息可以在很大程度上克服这个问题。但是,这将需要比个人计算机中更多的RAM和更快的处理器。

语音识别的历史

在过去的五十年中,语音识别技术呈指数级增长。最早可以追溯到1976年,那时计算机只能理解1000多个单词。随着IBM继续开发语音识别技术,在20世纪80年代单词理解量跃升至大约20,000。

消费者适用的第一款扬声器识别产品于1990年由Dragon推出,名为DragonDictate。1996年,IBM推出了第一款可识别连续语音的语音识别产品。

21世纪下半叶推出智能手机后,谷歌在iPhone上推出了语音搜索应用程序。三年后,Apple推出了Siri,著名的语音识别助手。在过去的十年中,其他几位技术领导者也开发了更多功能的语音识别软件,亚马逊的Alexa和微软的Cortana-两者都担当了响应语音命令的个人助理。

举报
评论 0