“嘿，Siri”是怎么实现的，苹果专门发了篇文章来介绍-汇美优普

“嘿，Siri。你是怎么做到聪明的？”

“我只是凡事都尽力而为”

这并不是一句玩笑话，对于 Siri 来说，它的确每天在尽力提供着服务。

两天前，苹果在公司机器学习博客上发布了最新的一篇文章，详细解释了“嘿，Siri”这个随时唤醒智能助手的功能是如何实现的。

2014 年 6 月，苹果带来了 iOS 8 系统，新增了 “嘿，Siri” 功能，可以免按键来唤醒语音助手 Siri 。一句简单的「嘿 Siri」就可以激活，让 Siri 为你设定闹钟，查看日历。

在最新的文章中，苹果详细地介绍了如何让硬件芯片、底层软件还有网络服务相结合，在最新的 iPhone，iPad，还有 Apple Watch 上实现“嘿，Siri”这个功能。

为了让用户可以随时唤醒 Siri，苹果在运动协处理器中集成了非常小的语音识别装置，这个装置一直保持运行，并等待用户说出“嘿 Siri”。当识别到这两个单词后，Siri 会将后面的语音处理为命令或查询。

iPhone 或 Apple Watch 上的麦克风会以每秒 1.6 万次的速度将你的声音转化为一连串的瞬时波形样本。每次将大约 0.2 秒的音频输入到声学模型，神经网络会将这些声学模型转换为概率分布，并使用时间集成来计算这个声音是「嘿 Siri」的可信度。

“嘿，Siri”是怎么实现的，苹果专门发了篇文章来介绍-汇美优普

苹果已经设定了信度分数的几个敏感阈值，如果分数足够高，Siri 就被激活，并开始处理用户的命令或查询。

但并不是说可信度的分值低于阈值的话，Siri 就彻底不理你。

如果分数超过了最低阈值，但没有达到激活的阈值，譬如你的声音有口音或者不清楚，这时设备会进入「敏感模式」，并持续几分钟。这样当用户再次重复「嘿 Siri」时，可以更快地激活。

“嘿，Siri”是怎么实现的，苹果专门发了篇文章来介绍-汇美优普

虽然变得更敏感，但是为了为了减少误识别或者意外激活 Siri 的情况，我们在进行初始化「嘿 Siri」的时候，会被要求连续说五次「嘿 Siri」。

这样在初始化完成后，用户的声音会转化成波形并送达到 Siri 的服务器里。在使用过程中，苹果会记录不同环境中远近激活“嘿 Siri”的情况，比如在厨房中、车中和卧室中等不同距离的情况。

与此同时，苹果还制定了一些与语音相关的规范，发音接近 Siri 的「Syria」(叙利亚) 和「serious」(严肃的) 等词语将被放在上下文中进行识别。

持续等候唤醒会不会增加耗电情况和占用内存，影响手机正常使用？苹果也做出了解释。

为了避免主处理器一直处于检测触发词的状态，iPhone 中的 AOP（一种小且低能耗的处理器）会使用其一小部分处理能力来运行一个探测器和一个小版本的声学模型。当信度分数超过最低阈值时，AOP 会「提醒」主处理器进行下一步操作。

“嘿，Siri”是怎么实现的，苹果专门发了篇文章来介绍-汇美优普

而电池更小的 Apple Watch 在整合 Siri 时需要考虑的挑战更多。为了不影响手表的续航表现，Apple Watch 的「嘿 Siri」检测器只有在手表启动时才会运行，它可以检测到手腕抬起的手势。只有用户做出这样的手势， Siri 才可能被激活。

当然 “嘿，Siri”的实现还有一些复杂的算法介绍，如果有兴趣，可以在这里看到详细的内容。

2012 年 4 月，Google 推出了看上去非常科幻的 Google Project Glass 眼镜。它可以把信息显示在眼镜右上角的小屏幕上。用户可以对着眼镜的麦克风说 “OK，Glass”，一个菜单就会自动出现。

这是语音唤醒功能第一次的公开展示。

2013 年，收购了摩托罗拉的 Google 推出了 Moto X ，这款安卓手机一个亮点就是可以 24 小时全程等候唤醒，提供 Google Now 服务。

Google 打造了 2 颗低功耗 SoC 芯片来实现这个功能，专门等待着用户随时输入语音命令。

当时 Google 为了功耗考虑，并没有采用语言模型、数据分析等方法，使用最简单直接的分类方法在用户输入语音流中寻找“OK Google”这几个字。

随着智能助手在各种软硬件结合上带来的功能提升，语音识别技术也在快速发展，准确性已经不是语音助手追求的目标，更加流畅和拟人成为目前研究的重点。

新版的 Siri 在 iOS 11 获得提升。Siri 的语音仍然是用语音合成技术来做，但在人工智能算法、语音内容上做了改进。

根据 Siri 团队的说法，苹果公司从数百位候选人中筛出了一位“新的、有语音天赋的女性”，让她读 10-20 小时的书、笑话、导航和问答等文本内容，并录制下来。Siri 团队希望新的语音内容可以帮助改善 Siri 语音的流畅度。

微软在今年 8 月推出了第五代微软小冰，启用全新的“生成模型”来生成对话。在这个模式下，小冰说的每一句话都有可能是完全生成的。在表达方面，没有人工干预的情况下小冰还可以准确识别“生长”和“伸长”中多音字的正确读法。

题图来源：Giphy

“嘿，Siri”是怎么实现的，苹果专门发了篇文章来介绍-汇美优普

嗖一下，答案就来了！