即时翻译 谷歌智能技术弥合人与人交流的语言鸿沟

Jun24

以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

3月,谷歌在Chrome浏览器上推出了“实时字幕(Live Captions)”功能,该工具使用机器学习为各类视频或音频剪辑创建即时字幕,为失聪和听力障碍的人提供更多访问互联网内容的机会。

过去,字幕要么是针对视频格式预先编辑的,要么是由后期人员编写即时字幕并在电视上播放,但现在“实时字幕”将改变这种情况,只需在屏幕上轻点几下,任何用户都可以能够获得即时准确的音视频字幕。

谷歌的“实时字幕”是一种自然语言处理技术(NLP),属于人工智能,它使用算法来促进人与机器之间的某种“交互”。NLP帮助我们将人类语言解码为机器语言。

智能计算的历史

要了解NLP的历史,我们必须回到现代最具创新精神的科学家阿兰·图灵的故事上。1950年,图灵发表了著名论文《计算机器与智能》,讨论了计算机有意识和会思考的想法,声称没有令人信服的论据可以证明机器不能像人类一样思考,并提出了“模仿游戏”(现在被称为“图灵测试”)。他提出了一种衡量人工智能是否可以独立思考的 ... ,如果它能够以一定概率诱使人类相信它可能是人类,那么它可以被认为是智能的。

1964年至1966年间,德国科学家约瑟夫·维森鲍姆编写了一个神经语言编程算法,名为 ELIZA,该算法使用模式匹配技术来创建对话。例如,在与“医生”计算机对话的脚本中,如果患者对计算机说“我的头疼”,医生计算机会用类似的短语回答,例如“你为什么头疼?”该算法使ELIZA成为最古老的聊天机器人之一。

1980年代是NLP产生的主要转折点;过去,ELIZA等NLP系统基于一套复杂的规则形成对话,而 人工智能无法自行“思考”,而是有点像聊天机器人,使用“预设”响应来适应对话情景。

到1980年代后期,NLP专注于统计模型,帮助其根据概率形成对话。

智能翻译如何运作?

用于语音识别的现代NLP技术包括一些常见的原理,例如说话声识别、声音识别、语种识别和日常记录,还可以区分说话者。

“实时字幕”使用了3个深度学习模型:两个循环神经网络RNN(一个用于语音识别,另一个用于标点符号),还有一个卷积神经网络( CNN),用于对音频事件进行分类。这三个模型发送的信号定义了整个翻译的形式和轨迹,即使存在音乐声,它也能顺利识别。

当识别音频或视频格式的语音时,会触发自动语音识别系统,允许设备开始将单词转换为文本。当此对话停止时 ,例如在播放音乐时,系统将停止工作以节省手机电量,并且屏幕中显示“音乐”一词。

语音文本转换完成后,一个完整的句子加上标点符号,标点符号会不断调整,使系统计算的结果不干扰完整句子的含义。

目前,“实时字幕”只能创建英文文本的指示性翻译,并且还在不断改进中,总有一天会扩展到其他语言。不过,Google Meet上现在可以使用旧版本的西班牙语、德语和葡萄牙语字幕。

语言代表着人与人之间交流的巨大鸿沟,而科技具有将人们聚集在一起的惊人潜力,自然语言处理技术可以弥合人与人之间这些鸿沟,共建美好未来。