当你正坐在家里的客厅,突然听到了一个巫婆般的笑声传来,你会怎么做?起身查看是否有人闯入?打电话给朋友?默念阿弥陀佛?其实没有这么麻烦,只要把你家智能音箱的插头拔掉就行了。

几天前,亚马逊的智能语音助手 Alexa 莫名其妙发笑,因为实在太令人发毛,这些案例立刻在社交媒体上快速流传而成了大新闻,人工智能想要跨越恐怖谷(Uncanny Valley)仍然不容易。

图丨恐怖谷理论示意图

其实智能音箱出现一些“搞笑”或“瞎搞”的事件,Alexa 并不是第一次,也不是唯一的一个。之前一名美国电视主播在说明一个小女孩意外通过 Amazon 的智能音箱 Echo 订购娃娃屋的新闻时,随口说了一句“我好爱这名说‘Alexa,给我一间娃娃屋’的小女孩!”,竟然唤醒了许多观众家中的 Echo,集体下订娃娃屋!

德国还有个更好笑的案例,Echo 不知为何自己启动,在午夜大声播放音乐,但因为屋主不在家,被吵得不耐烦的邻居只好报警,警察破门而入才把吵人的 Echo 关掉,真有够兴师动众。另外,小米的“小爱同学”、阿里巴巴的天猫精灵也都曾被国内媒体报道经常答非所问,更不用说乱扯出了名的 Siri。

为什么 Alexa 笑了?

这些“智能”音箱闹出的笑话随便都可以列出个十几件,回到正题,究竟是什么让 Alexa 笑了?

亚马逊官方针对此次巫婆笑事件做出回应,指出主要原因是当用户在说着其他语言时,Alexa 错误听到“Alexa,laugh”(Alexa,笑)这个词,因此亚马逊已经更改指令,以“Alexa,你能笑吗?”取代先前的“Alexa,笑”,同时也替换了 Alexa 的回应,Alexa 会先说,“是的,我可以笑”,之后才会发出笑声,而不是什么都不说就直接大笑。

从亚马逊台面上的解释来看,我们可以合理认为 Alexa 就是把非英语的语言“误听”为英语,然后以为用户在下指令,说得直白点,就是语音识别错误。亚马逊只强调了后续的解决方式,对于发生机器“故障”的原因并未深入阐述,没有一个处理过程是在客户终端上执行,外界也没有办法查看 Alexa 内部究竟发生了什么事,因此究竟是如亚马逊所言的小故障问题,还是阴谋论一点的想法如程序病毒、被黑客入侵,真相只有亚马逊知道,但是,此事件反应出几个问题,以下 DT 君将从智能音箱的现有技术瓶颈,下一步会走往什么方向,以及躲不掉的安全疑虑三个面向来深度讨论。

错误唤醒的比例仍高

语言一直是很复杂的领域,尽管语音识别在近年的发展有很好的突破,各家参与竞赛的分数也不断创高,但是,实际应用在生活上,语音技术显然仍有不足之处,否则就不会把 A 语言误听为 B 语言,而且每个人讲话的口音也不同,同样影响语音识别率,使得智能音箱无法正确识别用户到底在讲什么,未来这个问题非常有可能会被放大,例如听不懂亚洲人讲的英文,进而扯上种族歧视的大问题。

改善语音识别效果,对企业来说是一个持续性的工作,知名的语音识别公司科大讯飞接受 DT 君采访指出,改善语音识别效果主要有三个方式:一是不断优化麦克风阵列声学算法的处理效果,提升处理后的语音质量。二、通过不断收集用户的数据来优化用户的识别模型,甚至做个性化定制模型来优化效果。第三就是通过更好的语音识别建模方式,来实现语音识别效果的提升。

由于智能音箱是联网设备,可以通过空中下载技术(OTA,Over-The-Air)自动升级成最新的算法版本。在第二和第三点部分,目前各家音箱方案的语音识别都是基于云计算,可以通过后台升级用户的识别引擎来实现,不会对用户造成额外的工作负担。

鸡尾酒会效应仍难解

另一个鸡尾酒会效应问题,可说是智能音箱产品都有的问题。什么是鸡尾酒会效应(cocktail party effect)?早在 60 年代,英国心理学家 Colin Cherry 提出这种人类听觉有选择能力的特质,例如在一个派对上,夹杂着众人谈话的声音、音乐声、酒杯碰撞声,但是在这些环境音的干扰下,人类还是可以针对跟自己有关或是注意的声音特别关注,或是当有人喊你的名字,你依旧听得很清楚。

在去年的美国“超级碗”比赛,Google 为推广自家的音箱做了一支广告,强力在比赛期间播放,没想到却换来用户抱怨连连,因为只要当广告人物说出“Okay Google”,用户家中的 Google Home 就不断被唤醒,用户不堪其扰,这就是鸡尾酒会效应问题。像是 DT 君拥有一个 Google Home 设备,当 DT 君在讲电话时,Google Home 也常常自动莫名其妙被唤醒,误以为你在跟它讲话,同样的,iPhone 上的 Siri 也有类似问题,这种“误听”而被唤醒的比例仍相当高。

目前要对智能音箱下指令,多半必须靠近它说话,为“近场”语音交互,但是,在一个吵杂的环境,智能音箱如何识别出是谁在讲话?而且是在“对它”讲话?一堆人都在下指令,到底要听谁的?机器必须知道了,才能对于语音的内容做出反应,但对于这种“远场”语音交互的识别度问题不仅限于智能音箱,也是居家机器人、服务机器人目前遇到的挑战。

国内专攻远场语音交互硬件方案的声智科技创办人陈孝良指出:“鸡尾酒效应依赖现在的技术暂时解决不好,可能还需要 2~5 年的周期,需要一些前沿技术的突破”,他进一步解释,解决鸡尾酒会效应至少需要两个基础条件:一是基本原理和模型的进步,包括了人耳听觉和机器学习研究,二就是海量有效数据的积累,这两个条件都还需要时间。

科大讯飞也指出了类似的看法,“鸡尾酒效应目前解决起来难度仍然比较大,音箱上还不能支持”,讯飞以深度神经网络的语音增强方案在这方面已经有一些进展,不过预计还要 3 年左右的时间才能真的解决鸡尾酒效应。

因此,从解决痛点的角度来看,鸡尾酒效应是一个还有很大开发潜力的市场,也是大企业和初创公司的商机所在。

智能音箱的下一步

虽然智能语音助手在现阶段仍有不够完美之处,但是语音交互的趋势已经十分确立,Future Today Institute(FTI)最新出具的 2018 年前沿科技报告就点名,Siri、Google Assistant 这样的数字语音助手正在变得无处不在,“预测到 2021 年,有超过一半的计算都将通过语音完成,”FTI 创始人 Amy Webb 说。

因此,要改善使用者体验,实现音箱越来越智能是毋庸置疑的,怎么做?DT 君认为有两个方向正在成形,一是个性化、情感人工智能(Emotion AI)的加入,二是声纹识别(voiceprints)的应用扩大。

情感人工智能

个性化这件事在互联网世界已经被应用的十分普遍,电商购物会依据你的购买历史进行商品推荐,社交平台会依照你过往的点击内容,把你可能感兴趣的媒体内容、广告优先投放到你的眼前,甚至是交友软件 Tinder,都使用了个性化功能来推荐用户可能会喜欢的对象。

智能音箱势必也会往这个方向走,可以针对用户的发音习惯、常说的内容,定制优化用户的个性化语音识别模型,让用户的交互成功率越来越高,同时通过用户的交互数据做行为和爱好分析,来针对用户构建用户画像,做个性化的推送。

智能音箱的下一步发展,个性化是第一阶段,那么,情感智能就是进阶版。

情感人工智能也称为情感计算(affective computing),让机器能够侦测、分析、处理和回应人们的情绪状态和心情。“预计在 2022 年之前,你的个人设备将比你的家人更了解你的情绪状态,”知名调研机构 Gartner 研究副总裁 Annette Zimmermann 指出。

用声音做情绪分析,并将其落实在商业应用中,不算是一个新概念,例如把用户与金融业客服人员的通话,让人工智能判断用户的还款意愿,IBM 沃森也有一个客户互动音调分析(Tone Analyzer for Customer Engagement)功能,让人工智能通过人的声音推测出相应的情绪,沮丧、兴奋、礼貌、同情等,让企业打造更好的客服服务。

从 MIT 媒体实验室独立出来、知名的人工智能公司 Affectiva 就是从表情、声音、手势等多维度来研究情感人工智能,联合创始人 Rana el Kaliouby 就指出,当人类已经开始和 AI 产生关系,教会它们回应我们的感觉,就变得至关重要。例如,当一个用户很难过跟苹果 HomePod 说出心里的秘密时,HomePod 应该要能给予安慰。

另外,亚马逊的 Alexa 团队已经开始分析用户的声音,以识别他们的心情或情绪状态,播放不同风格的音乐,并让用户能够愿意跟语音助手进行更长时间的对话,进而发展出更好的情感人工智能。

声纹识别的野心

用户与智能语音助手的沟通不靠触控显示屏,而是利用语音交互,因此用户的声音反而成为非常重要的资料,尤其是声纹被认为具有独特的生物特征,就像人的指纹、虹膜一样,目前采用声纹识别技术的领域多在电信及金融行业,以取代个人密码、PIN 等,而智能手机以及智能音箱是语音交互最直觉化的设备,用于唤醒设备并登录每天使用的服务或应用程序,因此被视为是最有潜力的应用情景。

图|目前声纹识别的主要应用行业(资料来源:Opus Research)

目前智能音箱已经支持了声纹识别技术,像是天猫精灵基于声纹识别技术,推出声纹购,是第一个商用的声纹购物系统,用户购物、充值时,只需要说出声纹密码,声音识别系统将对身份进行校检,确认是本人后就可完成交易。

除了生物识别之外,声纹识别也是用以改善音箱体验的一项热门技术,不少企业借此自动判断说话人的身份、年龄、性别来实现个性化点播,也能减少音箱被错误唤醒的机率。陈孝良就指出,情绪判断和场景判断也是正在研发的技术,不过这些新的特征稳定性还不够,也包括声纹识别,但是有一点是很明确的,随着产品不断上量,产品技术的迭代也会更加迅速,多数据的融合将让机器看起来更加智能。

图|亚马逊在今年美国超级碗的广告,强调 Echo 设备不会被广告骚扰,消遣 Google 一番

前面提到了 Google 因在超级碗播放的广告惹恼了用户,到了今年的“超级碗”,Google 的死对头亚马逊就刻意做了一支广告,在 90 秒的广告里不断呼唤 Alexa,而且还对用户喊话:“请放心,你们的 Echo 设备不会被广告骚扰”,摆明了消遣 Google。

为什么亚马逊能如此有信心,原因就在于使用了一种名为“实时声音指纹识别”的技术(Real-time Acoustic Fingerprinting Technology),能分辨哪些声音来自广告、哪些才是用户的真正指令。

其实亚马逊在 2014 年注册了一项“语音指令过滤”(Audible Command Filtering)技术专利,防止 Alexa“在部分有大批观众的电视转播,如大型体育赛事时”被唤醒,采用了两种做法,一是在广告播出前,就先把部分片段传到 Echo,让 Alexa 比较并分辨哪些语音指令才是真实发出,另一种则是让广告发出一种人类听不见、但 Alexa 可以捕捉的信号,告诉它直接忽略这个唤醒指令。

而实时声音指纹技术建立在 AWS 云服务上,当多个设备开始被广吿、广播同时唤醒时,类似的音频会即时串流到 Alexa 的云服务,算法会侦测来自不同设备的音频吻合度,以防止其他设备被唤醒,“动态指纹还不完美,但基于这项技术,有 8~9 成的设备不会因为电视广告而被唤醒。”亚马逊语音识别主管 Manoj Sindhwani 强调。

不过,以声纹识别改善用户使用体验,只能说是前段,其实各家企业都有着更大的野心,医疗照护就是一个新世界,家中的智能音箱不仅可以侦测到你的情感,也可能侦测到与特定疾病相关的特征,包括心理的抑郁症、躁郁症、创伤症候群、或是帕金森病、心脏病等,未来甚至还可能与医疗保费设计挂钩。

亚马逊就与一家以色列初创公司 Beyond Verbal 合作开发一款分析工具,希望通过 Alexa 分析使用者的声音,进而判断其健康状况,像是侦测病患的沮丧情绪,未来甚至还可能诊断疾病,例如侦测心脏病等慢性疾病,另外像是国内一家初创公司逸善舒晨,也是锁定以医疗人工智能+声音做“病理声音”的研究,像是抑郁症。

Rana el Kaliouby 认为,带有情感的语音助手或机器人可用于检测疾病并加强健康行为,不过,她也直言“还有很多工作要做。”特别是,医疗行业不论是在技术导入或验证有效性方面,都采取相当严谨的标准和规范,因此这方面的研究仍在初期的研究阶段,只是 Amazon、Google、苹果等巨头已经大动作切入医疗行业,相信他们的长期研发蓝图里肯定有这一个选项。

安全漏洞:不是闭上眼就没事

“智能”音箱闹出的笑话随便都可以列出个十几件,而有些事恐怕不是好笑而已,例如安全及隐私问题,先不谈这些智能音箱是否 24 小时都在偷听你讲了什么话,甚至是像科幻小说剧情可能谋害你等诸如此类比较阴谋论的想法,因为目前仍难以查证,那就谈一个非常实际、现在就有可能出现的问题:骇客入侵,黑用你的智能音箱来捣乱,乱播音乐吵你、发出笑声吓你,而且音箱定位为智能家庭的中枢,可以跟居家设备整合,所以随意开关你家的电灯、空调也是很容易,甚至是盗用帐号购物、窃取个人资料等。

Alexa 发笑事件被大家关注,多半是因为亚马逊的名气、以及 Echo 是目前智能音箱市占率最高,但在此之前,其实音箱自己笑出来、播音乐的案例就已经发生,存在安全漏洞更是事实。资安公司趋势科技在去年底发布了《针对性攻击的声音》(The Sound of a Targeted Attack)报告,测试了两款音箱:Sonos 的 Play:1(以亚马逊的 Alexa 为核心)以及 Bose 的 SoundTouch,发现暗藏的安全漏洞会暴露用户资料,以及可用于展开攻击的信息,包括阻断服务(DoS)漏洞。

当黑客想要入侵一部主机/一个设备时,会通过一些扫描技术去测试此设备上有哪些通讯埠端口是开启的,也可以使用 Shodan,也就是俗称黑客界的暗黑搜索引擎,Shodan 会定期对各类设备埠号产生的系统旗标信息(Banners)进行审计,进而找出所有连线到网际网络(Internet)上的设备,在 Shodan 上可以找到在特定国家、经纬度、IP 位址范围的网络摄影机、印表机、智能家居设备,当然也有智能音箱,趋势的资安人员也使用了 Shodan,可以看到数千台使用中的 Bose 和 Sonos 音箱分布在哪些国家。

图|趋势的资安人员使用 Shodan,可以看到数千台使用中的 Bose 和 Sonos 音箱所在地。(资料来源:趋势科技)

趋势科技的测试报告指出,一个很简单的通讯埠开口就能让任何人可以存取设备,取得用户信息,例如用户往往把音箱跟音乐串流服务如 Pandora、Spotify 对接,因此黑客可以拿到你用来注册音乐串流服务的电子邮件地址,以及使用同一网络的其他设备的清单。

图|黑客可以根据目标的音乐偏好发送定制的钓鱼邮件。(资料来源:趋势科技)

此外,工程师在测试时也取得了音箱所连接的 WiFi 无线基地台的 BSSID 信息,并且利用 Alexander Mylnikov 博客开发的公共地理位置 API,查询这些特定的 BSSID,就能抓出音箱所在的经纬度,再搭配 Google 地图看到大致的地理位置。同时,也能看到设备上进行的活动,例如正在播放的歌曲,甚至是可以远程控制设备。

在掌握了上述的方法后,趋势的测试人员想知道是否可以得知更多的个人信息和居住地区,因此他们随机选择了一个 Sonos 音箱展开近一步测试。在 Shodan 搜索引擎网站上,他们发现科罗拉多州有 6 个对外暴露的音箱,他们随机选了一个,这个音箱连接到 Pandora 帐号,因此取得了注册这个 Pandora 帐号的 Email,接着他们把这个 Email 与 Pipl、Facebook 进行交叉查找,(Pipl 是一个依据公开信息来定位人员的在线搜索工具),也用 FamilyTreeNow.com 网站查看是否可以找到此人可公开取得的身份信息(PII)或地址,他们还真的找到了一些可能性颇高的地址。然后他们再用 SSID 方式查找上网的地点,比对两地是否为同一地。果然,那个地址就映射在 SSID 位置的旁边。

图|将可能的地址与 SSID 位置进行比对。(资料来源:趋势科技)

当然,这个测试调查是来自白帽黑客,所以在测试结束后,趋势已与 Sonos 联系,修复了安全漏洞,也不会透露测试个案的身份,但是,这些看似很小的漏洞,其实只要利用网络上各种公开的查找工具,就可能演变成很大的问题,除了知道你家地址,隐私遭侵犯,甚至引发危及人身安全的社会事件。

可惜的是,目前看来,智能音箱的企业似乎刻意不谈论这方面的问题,也鲜少看到他们主动强调资安的防护方式,多半是资安公司发现了漏洞,智能音箱企业才发布补丁,这就像是明知道高风险可能发生,但大家都蒙着眼似的看不到,因此,DT 君想提醒消费者一件事,一定必须要有危机意识,说白了,智能音箱是这些大企业为了让你习惯依赖他们的手段,但此类产品给予用户的控制权其实很小,不像个人计算机能根据自己的喜好进行修改和监控,可以使用诊断软件、活动监视器,或者尝试找出 bug 在哪里,为其安装修补程序,因为企业若不再开始重视资安问题,下次你的智能音箱再大笑出声,很可能不再只是一场误会而已。

声明:本文来自DeepTech深科技,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。