文|南都记者 杨柳

撞上微信的“风控墙”后,豆包助手被越来越多的App拦在门外。

南都记者实测发现,截至12月5日,QQ、支付宝、淘宝、淘宝闪购、高德地图、拼多多、建行、农行等App,均限制豆包助手进行自动化任务操作。即使在手机设置中关闭豆包助手功能,部分App依然无法登录。许多App厂商也并不认可有对豆包助手采取针对性风控措施。

这款字节跳动发布一周的AI手机智能体,先是引起外界对其自主操作任务能力的赞许,继而陷入舆论漩涡。

根据实测,凭借与中兴努比亚的深度“联姻”,豆包助手拿到一般App无法获取的更高层级操作系统权限。这是其能像人一样使用各款App的技术基础,从而帮人类代劳完成诸多任务。便利背后,豆包助手也因此被质疑调用系统级敏感权限,让用户隐私有被侵害之虞。

豆包助手还可能改变用户使用手机的习惯。努比亚M153手机为豆包助手专门配置了物理按键。用户长按该键即可唤醒豆包助手,通过语音发出指令,豆包助手便会调用手机桌面上的相应App去执行任务。这一过程中,豆包助手成为流量分发的入口,被调用的App变成“配角”。在许多声音看来,手机AI助手的出现,可能搅动既有的互联网平台竞争格局。

争议之下,豆包助手官方不得不数度回应。其核心意思大致是,豆包助手已事先做好了各项隐私保护举措,同时积极寻求与各应用厂商的深度沟通,并对AI操作手机的能力做规范化调整。

尽管豆包助手的起步并不顺畅,但手机助手与AI大模型结合的趋势难以逆转。一位头部券商的科技分析师指出,豆包助手带给行业的意义,远远高于目前产品的技术成熟度。

对外经济贸易大学数字经济与法律创新研究中心主任许可表示,任何颠覆性创新都有牵一发而动全身的效应,它不仅触动特定的商业场景,还将挑战既有的行业格局、市场伦理和法律制度。人工智能创新更是如此。AI智能体的使用一方面要坚守合规底线,在保障安全、不侵害用户和第三方权益的前提下进行,另一方面还应将公平、透明、诚信、包容等更广泛的社会福祉纳入考量,从而实现真正“负责任的创新”。

豆包助手拿到的权限“更高一筹”

字节跳动旗下的豆包App依然局限于聊天机器人形态,可以回答用户的提问,却无法帮用户完成点外卖、预订机票等跨App的任务。而内嵌到努比亚M153上的豆包助手弥补了这项能力,仿佛让AI长出了“手脚”,能像人类一样去读取屏幕内容和完成点击操作。

努比亚M153由字节跳动和中兴合作打造。按照分工,字节跳动主导A1手机助手的产品定义与体验,而中兴旗下努比亚负责硬件及制造部分。虽然官方强调这款手机只是“工程样机”,但阻挡不了首批产品销售一空。

在大量App给豆包助手设限前,这款AI手机智能体展现了较为通用的自主操作能力,不局限于个别单一任务。虽然不能保证每次均成功执行指令,但豆包助手的成功率高于南都记者此前测试的其他同类型产品。

实测发现,即时通信场景下,豆包助手可以给QQ好友发消息、打电话,帮忙浏览和梳理QQ空间的好友动态;生活服务情境中,豆包助手能自主点外卖、多平台进行商品比价,还可以帮忙购买机票、在滴滴上领优惠券;娱乐休闲场景中,豆包助手还能自动刷短视频,总结微博热搜内容。当B站用户为了在评论区留言而必须完成题目测验时,豆包助手也能上手答题。

当B站用户为了在评论区留言而必须完成题目测验时,豆包助手也能上手答题。图中白色圆点为智能体进行模拟点击

此外,豆包助手还表现出纠错和抗干扰能力:自主关闭App内的弹窗,纠正先前操作步骤犯下的错误,并能在任务执行遇阻时变通寻找其他解决方案。

在南都的一次实测中,豆包助手点瑞幸咖啡时多选或选错了口味,但它在确认购物车商品之前,将不符合用户需求的咖啡品类和数量删除。另一项测试中,在用户语音指令豆包助手给某位QQ好友拨打语音电话时,由于语音转文字识别的人名并不准确,豆包助手在QQ搜索框多次检索该错误人名无果,转而从QQ联系人列表中去寻找同音的好友账号。

豆包助手《应用权限申请与使用情况说明》文档中提示,豆包助手会调用INJECT_EVENTS权限,以实现操作点击。豆包方面亦公开承认,INJECT_EVENTS确实是系统级权限,拥有该权限许可,相关产品才能跨屏、跨应用来模拟点击事件,完成用户操作手机的任务需求。且目前行业的AI助手,均需要使用该权限(或与其类似的无障碍权限)才能提供操作手机的服务。

豆包助手会调用INJECT_EVENTS权限,以实现操作点击

北京汉华飞天信安科技有限公司总经理彭根告诉南都记者,操作系统级别权限,意味着普通安装的第三方App无法获取到该权限。字节跳动和中兴在操作系统层面展开合作,为获取到INJECT_EVENTS权限扫清障碍。对于像智谱AutoGLM这类第三方App,先前只能借助手机系统上功能相似的无障碍权限——无障碍权限最初是方便残障人士使用手机的模块,也能让手机AI助手进行读屏和模拟点击。

这意味着,INJECT_EVENTS权限的获取门槛更高,必须由手机厂商的钦定。但无障碍权限是所有App都有机会使用。

从实测的体感上来看,如果通过无障碍权限实现“读取屏幕+模拟点击”,手机智能体会占用手机终端的屏幕,用户无法同时在手机上操作其他事项。豆包助手则不然,它可以后台运行,不影响用户同步刷抖音或使用其他App。

网络安全专家曲子龙向记者解释,无障碍权限的工作逻辑,完全是模仿用户的前台应用操作。手机智能体若是依附这项应用层的权限,中止无障碍权限就等同于退出一款应用,自然不会继续执行任务。而豆包助手是一个拥有手机系统底层权限的应用,所以具备后台执行任务的能力。但INJECT_EVENTS权限只负责模拟用户指令的操作,“允许后台活动”需要系统提供其它的权限才能完成。

无论是使用无障碍权限,还是调用操作系统级的INJECT_EVENTS权限,类型上均属于业内所说的“视觉路线”:和人类查看屏幕内容和操作手机并无二致,且执行任务能力具有通用性,无需单个第三方App的逐一适配。

至于手机助手任务执行流畅度、成功率的高低,彭根认为,这考验的是不同厂商AI模型在语义和图形理解、任务规划等方面的能力水平。

上线一周,豆包助手撞上“风控墙”

从12月2日晚间开始,陆续有努比亚M153的用户发现,使用豆包助手自动操作任务后,会导致微信账号异常退出。随后,豆包助手下线了自动操作微信的能力。

微信相关人士彼时向南都记者表示:“目前了解到没有什么特别的动作,看是不是触发了微信的安全风控措施。”

调用微信受阻后,豆包助手接连“碰壁”。南都记者在12月4日测试发现,当豆包助手替用户代劳“干活”,支付宝、淘宝闪购、拼多多、建行、农行等App纷纷“关门谢绝”,部分App提示“登录环境存在异常”。其中,即使在手机设置中关闭豆包助手,仍无法在豆包手机上等登录支付宝、淘宝闪购、拼多多这三款应用的个人账号。

到了12月5日,南都记者实测发现,此前一日能正常使用的QQ、淘宝、高德地图,也加入到“拉黑”豆包助手的行列。从设置中关闭豆包助手之后,淘宝、高德地图依然无法正常使用。

截至12月5日,QQ、支付宝、淘宝、淘宝闪购、高德地图、拼多多、建行、农行等App,均限制豆包助手进行自动化任务操作

无法调用如此多常用的App,也让一些用户在豆包助手飞书群中调侃,新买的AI手机恐变成板砖。

除微信之外,其余各方均未就账号登录异常给出公开说明。南都记者了解到,App厂商们大多不承认有针对豆包助手采取专门的风控措施。

“从账户保护的角度来说,确实不需要单独采取对豆包助手的风控,它触发的是厂商在账户保护的标准风控机制。”曲子龙表示,近年来为了遏制互联网盗号、恶意的集群批量养号、水军等各种账户安全问题,各厂商都在账号安全方面做了各种安全策略。在一台新手机上进行敏感操作,遇到围绕账户使用的一些异常提示,其实在安全从业者眼里都是正常且有依据的风控表现。

实际上,不少App早已对自动化操作软件设防:包括微信、支付宝甚至抖音自身都以平台协议的形式约定,用户不得使用任何自动化程序,获取App服务及收集或处理其中的信息。

《抖音用户协议》

浙江理工大学数据法治研究院执行院长郭兵向南都记者分析,从法律关系角度而言,第三方App可以根据与用户的协议约定,对使用过自动化软件的用户账号予以处置。此时,用户与AI手机助手之间的服务协议,同用户与第三方App的约定发生冲突,涉及第三方App的约定一般应该优先适用

另有观点质疑平台约束性条款的效力。华东政法大学经济法学院副教授翟巍提到,用户享有权利选择代表其进行行动的AI助手,第三方App不能因此歧视用户。若第三方App剥夺用户自由选择AI智能体的权利,这构成格式条款,对应的平台条款应认定无效。

平台利益相关方之间不点名的“口水战”中,INJECT_EVENTS权限调用成为重大关切。

外界一种声音认为,INJECT_EVENTS属于“上帝之手”级别的操作系统高危权限,并暗示黑客可能突破操作系统限制拿到这一权限。

高危权限之说亦得到其他安全专家的认同。彭根介绍,INJECT_EVENTS权限足够大,风险自然是高的。拿到该权限的厂商是否作恶,很大程度上依靠公司的自律。对于厂商之外的第三方想侵入拿到INJECT_EVENTS权限的情形,则考验手机系统厂商和AI智能体公司对外来安全威胁的防护能力。

针对敏感权限调用的担忧,字节跳动对外回应的落脚点有三:一是强调豆包助手自身不存在任何黑客行为;二是诉诸行为的普遍性,称行业内的其他AI助手也在使用INJECT_EVENTS权限;三是摆出已采取的隐私防护措施,声明不会代替用户进行相关授权和敏感操作(如支付)。

曲子龙近日撰文指出,如果AI助手通过无障碍服务实现操作指令,这属于应用层对功能权限的授权,并且所有App都能使用这一权限。相比之下,使用INJECT_EVENTS权限显然在安全上是进步了的,“毕竟它可不是随便哪个App都能获取到的权限,你只需要监督豆包AI助手是否作恶就行了。”

在此次INJECT_EVENTS权限进入公众视野前,无障碍权限作为高敏感权限,今年以来持续引发业内关于隐私安全的讨论。一位互联网合规人士称,无障碍权限开启后,可以读取屏幕文本内容,监视和记录用户的所有操作,其中有可能包括用户输入的敏感信息。

无障碍权限争议之下,智谱AutoGLM于今年8月发布的2.0版本更改了产品形态:采购云手机服务——一类基于云计算技术的虚拟手机服务,让智能体直接调用云端手机桌面的App完成任务,而无需索取手机终端的无障碍权限。有知情人士告诉记者,AutoGLM如此迭代,除了应对多款第三方App的封禁,亦是为了达到手机应用商店的上架标准。

对于底层权限的隐私风险,普通用户较难切身感知。更为直观的依然是上手体验:豆包助手在任务操作时,用户能察觉到它在读取屏幕上各类内容。无论是点外卖还是即时通讯,电话、家庭地址、聊天记录等信息都可能被AI助手捕获。豆包助手还拥有全局记忆功能,用户可以选择手动记忆或设置为AI自动记忆,从而让手机助手更懂用户的偏好和特征。

字节跳动显然意识到,这些AI功能可能刺激外界的隐私焦虑。和努比亚M153手机一同发布的,还有一份《豆包助手隐私安全白皮书》,其中开宗明义地讲到:“豆包助手在所有产品和服务的设计过程中,始终将用户的数据与隐私安全性作为首要考虑因素之一。”字节跳动同时声明,手机助手读取屏幕和操作过程都不会在服务器端留下存储,且所有的相关内容也都不会进入模型训练。

这样的承诺以及技术性保护措施的描述,能否取得普通用户的信任,目前难以下定论。从社交平台用户反馈的情况看,一些声音对AI智能体抱有疑虑,根植于对国内互联网企业固有的不信任感。

但站在功能实现的角度,彭根认为,如果要让手机助手提高生活品质,提供最好的服务,前提是让它对用户有足够的了解。在此过程中,向AI告知个人信息甚至敏感信息变得不可避免。

流量入口迁移的攻防博弈

AI手机助手绕不开的障碍,不仅仅有来自用户和第三方App的信息安全顾虑,还有第三方App对流量入口转移的设防。

多位业内受访者此前向记者表示,AI智能体的自动化操作,可能会波及第三方App的停留时长、广告推荐等获利模式,将原本的流量入口从App迁移至智能体,减少用户关注和使用App的频率。

在此过程中,如果手机AI助手没有取得第三方App授权,便径自进行自动化操作,容易激起第三方App厂商的反弹情绪。

手机AI助手厂商一方认为,其产品的合法性建立在用户授权之上。第三方App厂商则追问,手机AI助手是否有经过应用软件方的授权?

有第三方App厂商人士曾指出,智能体随意调用另一个应用,获取应用的数据信息并进行操作,实际上架空了应用软件的安全机制,影响到运行模式,“App厂商被智能体绕道走后门,直接开窗撬锁”。

这涉及目前业内具有争议的“双重授权”问题:AI手机助手除了获取用户授权,还需不需要第三方App的授权?

郭兵向记者指出,广东省标准化协会于6月发布的团体标准《智能体任务执行安全要求》,以及中国软件行业协会在4月发布的《移动互联网服务可访问性安全要求》,均要求智能体获得用户和第三方App的双重授权。然而,中国软件行业协会于10月发布的《智能体行为安全要求》已取消这一要求,转而强调“用户可控”。

《智能体行为安全要求》写道:“智能体应确保相关行为能力支持用户自主开启、关闭或随时终止,第三方App不应要求额外授权,妨碍用户自主可控。”

郭兵表示,中国软件行业协会前后的两份团体标准是有一定的矛盾的。若将“新法优于旧法”的法理适用于团体标准,取消“双重授权”可视为中国软件行业协会层面最新的要求。中国软件行业协会的团体标准此番调整,一定程度上是为了推动手机智能体的应用。

郭兵认为,如果出现智能体运营方与第三方App之间的不正当竞争纠纷,《智能体行为安全要求》这份标准可能成为智能体运营方否认构成不正当竞争的理由。但由于团体标准没有强制性效力,法院是否会参考相关标准存在不确定性。

眼下,不同利益方的博弈暗流涌动。北京大学武汉人工智能研究院副院长吕鹏建议,国家网信办推动立法立规工作,互联网行业协会等开展建章立制、自我管理,妥善解决通用手机AI助手与第三方App之间协同、调用不顺畅的问题,同时规范通用智能助手的发展。

如果“双重授权”是必要的,回归到技术层面,又引申出新的问题:“读取屏幕+模拟点击”的“视觉路线”,其前提优势本身在于通用性,无需第三方App授权即可调用操作。一旦AI手机助手厂商必须与各个App厂商寻求授权合作,实际上可以回归到准确率更高的API(应用程序编程接口)方案。

“如果App厂商愿意开放API,对手机AI助手而言是一项巨大优势。”一位AI智能体研究人员此前向记者介绍,手机助手此时可以一步到位地执行用户指令,无需每操作一步都运行一遍“感知—决策—执行”的流程。

从实现难度来看,API接口方案的工程量浩大。曲子龙说,应用市场上有海量的App,每款App的场景都需要单独接入。而且,开放API授权还要做大量的安全投入。可见,想要所有的App厂商配合几乎不可能。

合规压力也是另一个担忧因素。一位荣耀的人士此前向记者感慨,有些第三方App并不愿意适配接入,担忧开放API接口产生数据安全隐患。

商业利益层面的考量,亦在阻碍API接口方案的推进。综合多位业内受访者的看法,如果AI智能体操作任务,可能干扰App厂商的营利机制,如开屏广告无法触达用户。此外,用户使用时长是平台非常看重的一项指标,而AI智能体本质上是帮用户节省时间,“二者的需求是一个矛盾,不太可能调和。”

曲子龙认为,理想化的路径是,手机AI助手开放一项技术标准,其余第三方App内嵌的Agent(智能体)再接入这一手机系统层的AI助手。该路径之下,系统层的AI助手接收用户需求,制定工作计划,调度对应App内的Agent执行指令,最终收集结果反馈给用户。

“这一定是最安全可控且更流畅的工作模式,但这条路也太理想化了。”在曲子龙看来,这至少要大部分App公司达成一致,且为了这个目标共同努力才能实现。而且,并不是每款App都需要做自己的Agent。相较而言,此种路径虽然比API接口方案有所进步,但工程量依然不小,短期无望。

手机AI助手带来的流量入口转移变局,不仅仅事关第三方App,手机厂商也面临抉择:究竟是自研AI助手,还是像豆包助手手机这样,直接采用外部大模型公司的产品?换句话说,类似于华为将智驾技术赋能汽车厂商的模式,在手机AI助手领域是否行得通?

字节跳动日前透露,正在和多家手机厂商推进手机助手的合作落地。从公开情况看,仅有魅族科技等表达了与字节跳动深入合作的意愿。与努比亚相似,魅族也不属于国内手机厂商第一梯队。

在IDC中国研究经理郭天翔看来,字节跳动很难跟手机大厂形成深度合作,只能赋能小厂。手机大厂在云侧模型可以与互联网公司合作,但是端侧模型要坚持自研,这不仅是数据安全问题,也关乎未来AI场景下流量分发和用户的争夺。否则,将来手机厂商就仅仅是硬件平台,只能赚取一点硬件毛利,话语权都被互联网公司掌握。

但一位大模型公司了解手机智能体的人士向南都记者表示,当前来看,手机大厂缺乏与字节跳动合作的意愿,根源仍在于模型在当下的准确性还不够,手机厂商也不想把一款不成熟的手机助手产品卖给消费者。若模型执行任务的准确率飙升到95%以上,使用的“丝滑”程度能真正提升效率,从而变成用户在购买时的主要决策依据,届时或许会有手机大厂接受类似豆包助手这样的合作范式。

出品:南都数字经济治理研究中心

声明:本文来自AI前哨站,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。