万字详解智能体：AI手机走“盲道”

　　正在通用人工智能（AGI）的弘大邦畿中，AI Agent（智能体）被视为环节一步。它不只能聊天，还要做呈现实步履，实现“从说到做”的进化。现实上，AI智能体早已正在手机里展示潜力。一句线杯咖啡、群发微信红包、从动抢演唱会门票……过去一年里，几乎所有手机厂商都正在为AI智能体秣马厉兵，试图打制科幻片子里各抒己见的“贾维斯”。大模子公司也正在发力能操做手机的智能体产物。手艺狂飙的背后，现忧悄悄浮现。虽然AI还未实现“全从动驾驶”手机的抱负形态，但南财合规科技研究院、21世纪经济报道实测发觉，多款手机智能体正在后台打开了手机的无妨碍权限，部门未事先通知用户。这一功能本来是为残障人士设想的“特殊通道”，甚至施行任何操做，属于高权限。这场由手机智能体激发的手艺跃迁，也正在为现私、App变化带来新课题。正在它们完全改变糊口体例之前，很多问题仍待厘清。南财合规科技研究院为此测评6款 AI 手机，手艺工程师和现私专家，拾掇出七个需要领会的环节问题，绘制一张认知地图。手机帮手的概念并不新颖。2011年，Siri以“智能语音帮手”的身份表态苹果发布会后，几乎每一台挪动设备里，都能找到一个像Siri、小爱同窗、小度同窗一样的智能帮手。设闹铃等简单操做，但离实正的“智能”还差得远。生成式AI的插手带来了让人兴奋的变化。2024年9月，荣耀率先颁布发表用大模子“全面升级”手机帮手，并暗示荣耀Magic 7系列是阵营里首款落地AI智能体的手机。随后华为、vivo、OPPO、小米等厂商都升级了自家的手机帮手，摇身变成AI智能体。分歧于晚期的手机帮手，智能体的方针是深切手机操做流程，成为万能管家。开辟者们，只需要一句话，用户无需逐一打开App，手机智能体就能像实人一样正在多个App之间操做，完成订票、点餐、打消续费等复杂使命。以最高频的宣传场景为例，我们正在语音球里出AI智能体，提出要求：帮我点一杯咖啡。这时小米、OPPO会跳转到美团App的“咖啡”外卖搜刮页，但无法继续操做，使命终止。荣耀的YOYO智能体能够更进一步。它会先弹出一张有三种咖啡选择的外卖卡片，再跳转进美团App的“咖啡”搜刮页，由YOYO一步步抵达最终下单页面。不外整个过程仍然需要多轮确认，并不比本人脱手快几多。“给发一条微信动静”也需要多轮对话操做，包罗扣问“你想要发送什么内容？”“能否确认发送？”，只要荣耀YOYO和OPPO小布能走完流程。虽然看起来前进了一大步，但成功率低、响应不不变、耗时长，仍是手机智能体遍及存正在的问题。全体看下来，现正在可能只要荣耀YOYO能称得上“半托管模式”，但距离其宣传的手机“全从动驾驶”仍有差距。这背后的一道是，手机智能体需要冲破App之间的藩篱。西湖大学AGI尝试室担任人张驰告诉我们，早一代的手机帮手次要挪用的是系统自带使用，素质是挪用预设好的号令块，好比Siri能查苹果气候和搜刮Apple Music。而手机智能面子对的是跨第三方App操做和复杂多变的用户指令——美团、饿了么、携程、同程、飞猪……“现正在手艺根基定型了，但要实正落地为一个产物，还得面临大量工程问题。”张驰曾带队某头部大厂的智能体研究团队，他们正在2023年12月的论文中提出了一种名为App Agent的手机代办署理框架，并测试了十款App里修图、购物、订机票等使命的成功率。其时，App Agent的成功率约为73%，进修示例后可提拔至84%，而线个月前比拟，这曾经是庞大前进了，终究那时的智能体往往正在短短几秒钟后就会‘跑偏’。”张驰暗示，现正在手机智能体的方式依赖逐渐推理，即每施行一个操做前AI都要 “思虑” 下一步该做什么。提拔机能和效率，是接下来的环节标的目的。本年1月，OpenAI也发布了首款能操做电脑的智能体Operator。正在美国卡耐基梅隆大学等机构特地倡议的Web Arena测试中，IBM的智能体 CUGA正在电商网坐、社交论坛等电脑网页里的使命成功率为61。7%，目前排名第一，其次是成功率58。1%的Operator。一年前，排名最前的GPT-4o成功率只要33%。手艺海潮持续冲刷下，智能体正从概念构思加快现实，近期Manus的迸发正在全国掀起新一轮智能体之风。而手机是国内市场最广漠的登岸场，手机厂商也是最早起头试水智能体的力量。目前，手机智能体遍及由手机厂商间接打制，而三星、苹果如许的跨国手机厂商正在进入中国市场时，会取第三方公司告竣AI“手艺结盟”（智谱AI和阿里巴巴）。零散的第三方产物则方才起头闯入市场，好比智谱AI的Auto GLM和领取宝的“糊口管家”支小宝。颠末App授权后，手机智能体用过使用编程接口（API）或者开辟套件（SDK）挪用App的特定功能。vivo供给的《vivo企图框架》细致描述了这一过程。拿“帮我点一杯咖啡”为例，起首手机智能体用大模子理解用户需求，识别出“餐饮订餐”的企图；然后将需求发送至外卖App；接着外卖App前往成果，由手机智能体封拆成一张“咖啡卡片”；最初点击卡片，跳到App里继续操做。手机智能体相当于一个批示中枢，理解需求，分发流量。“能用API的处所，当然会优先利用API。”张驰说，挪用API的益处是能间接完成使命，兼具不变和平安。他接触过的大多厂商都倾慕这种方案，它们会提前列举一系列高频场景——外卖、购物、订票——再让手机智能体挪用响应场景的API完成使命。目前，苹果、华为、vivo、OPPO都已推出各自的企图框架，小红书、同程旅行、百度云、58同城、领取宝等App呈现正在“智能体生态合做名单”中。手机厂商会供给开辟者文档，让App开辟者自从选择能否接入、若何接入，哪些场景取接口。但我们也从接触过构和的业内人士领会到，合做进展不算成功，App大厂对于插手企图框架的立场隆重。缘由不难想象。若是手机智能体能间接挪用App功能，用户可能不再自动打开App，影响流量和告白量，以至减弱用户数据堆集。简单来说，视觉线等于用“读屏+模仿操做”来挪用App。此时手机智能体的工做思取通俗人无差：比起企图框架，这种方案的最大劣势是能绕过App后台授权、畴前台间接操做，但难点正在于顺应界面变化。“若是App俄然更新设想、按钮变了，AI又得从头进修。”前述手机厂商人士说。很多团队一曲正在打磨这条手艺线。张驰团队的方式是进修外部文档，自从顺应App界面的细微变化。比来他们试图付与手机智能体更强的自从进化能力，让其能够“一键”操做，精简推理步调。2023年12月，智谱AI颁发了《GUI 代办署理的可视化言语模子》手艺论文，研究若何用大模子操做图形用户界面，Auto GLM就是这项研究落地的产物。阿里巴巴、华为诺亚尝试室、苹果、谷歌均颁发过视觉线的AI智能体的手艺论文。多位手艺人士向我们注释时提到，要让手机智能体间接操做屏幕，就必需用到一项权限“无妨碍办事（Accessibility Service） ”。其具有系统级此外最高权限，能够看到屏幕上银行卡暗码、聊天记实等所有消息，继而替用户点击、长按、滑动屏幕，相当于手机里的一双“之手”。“（视觉线）虽然潜力庞大，代表着将来的成长标的目的，但也伴跟着诸多问题和风险。”张驰坦率地说。对良多人来说，“无妨碍功能”仍是个目生概念。“无妨碍功能”也叫“辅帮功能”，原先是为残障人士设想的——例如，“屏幕朗读”能够读出屏幕上所有文本、按钮、标签，让视障用户用听觉领会手机里发生的工作；又比若有了“语音节制”功能，肢体妨碍者无需脱手，措辞就能操做手机。不像大部门App有前台界面，无妨碍功能只正在后台运转。每一次我们取其他App的界面交互，后台办事就会收到当前的屏幕内容。正在AI手机的时代，哪些智能体正在利用这一权限？通俗用户若何判断本人的手机智能体了“高权限”？它们凡是会正在《现私政策》中交接相关环境，好比小米《超等小爱现私政策》写道：“我们需要收集您的界面文本、控件、图像的进行模仿点击……操感化户需要辅帮功能权限……若是您不供给这些消息，则不克不及利用模仿点击功能。”vivo的智能体未正在《蓝心小v现私政策》中间接提及无妨碍功能，但“蓝心小V”的设置页面中，明白包含“一键识屏”“查看和节制屏幕权限”等选项，因而也有可能用到无妨碍功能。315消息平安手艺尝试室手艺专家彭根告诉我们，这几乎是独一的可行法子。即即是专业的收集平安人员，也次要依托这一页面来判断App能否挪用了无妨碍权限。特别是针敌手机原生使用，外部手艺手段很难它们的利用环境。当荣耀的YOYO正在美团App下单咖啡时，系统会显示其正正在接管手机，同时“无妨碍使用列表”里YOYO的开关，使命竣事后又从动封闭。小米的超等小爱正在打车、调出滴滴App时也会无妨碍功能，但分歧的是，正在使命竣事后，权限仍连结形态。三星的Bixby利用更为屡次，无论能否跳转App，只需对智能体Bixby措辞，Bixby的无妨碍权限便会从动打开。还有两种特殊环境值得一提。vivo系统输入法中嵌入了小v写做功能，据称为了让AI“识别页面聊天记实，并按照上下文语义理解高输出答复成果”。正在拿到一部新手机后，只需用到vivo输入法，同意授权后，便会全程打开无妨碍功能。而OPPO虽然正在小布智能体的《现私政策》中提到了会用到无妨碍权限，但小布没有呈现正在“无妨碍使用列表”中，因而我们无从核查能否利用。一方面，这些年无妨碍办事的案例不少。搭载了无妨碍接口的App很容易走进灰色地带，此前风行的“跳开屏告白”神器李跳跳、从动抢红包和外卖单的“超等雷神”外挂、手逛里的打怪外挂等等，都涉嫌无妨碍办事。不只危及小我现私，还影响收集平安。另一方面，无妨碍办事是残障人士融入数字糊口的必需品。我国《无妨碍扶植法》于客岁9月1日起施行，要求各大互联网平台合适无妨碍网坐设想尺度和国度消息无妨碍尺度。彭根提到，无妨碍功能的利用场景还包罗表单填写、从动化软件测试，从而提高工做效率。“大模子本身就也正在享受无妨碍功能的盈利。”同济大学院帮理传授、上海市人工智能社会管理协同立异核心研究员朱悦弥补说，很多晚期的多模态大模子锻炼数据，正来自无妨碍办事为海量视频和图像供给的文本标注。多模态大模子取无妨碍的“互帮”，能够说是手艺往前走的需要。取之对比的是小米的超等小爱。它会先弹出通知界面，明白申明“模仿点击”和“屏幕内容获取”权限的用处，用户同意后再启用无妨碍功能。而vivo的环境较为特殊，虽然输入法的无妨碍权限全程，但正在回微信、写小红书案牍时初次用到小v写做的话，系统会跳出一条“一键识屏”的授权提醒，奉告该功能会节制屏幕、读取所有内容。正在节制开关上，各家做法也不尽不异。只要小米、荣耀、三星正在系统“无妨碍使用列表”中为AI智能体供给了开关，用户能够随时手动封闭。此外，小米、vivo正在智能体的零丁页面中供给了针对“一键识屏”等功能的零丁开关，相当于另设了一道防地。不雅韬中茂（上海）律师事务所合股人君告诉我们，按照《小我消息保》的要求，收集、利用小我消息必需遵照、合理、需要的准绳，而且消息处置的目标、范畴和体例。此外，无妨碍功能会获取到存款、消费记实、网页浏览记实等小我消息，处置小我消息必需取得零丁同意。“所以正在挪用无妨碍权限时，不只需要明白奉告用户该权限的具体用处及可能的风险，还必需获得零丁同意，不克不及取其他非权限的授权一揽子。”君阐发，针对现私合规问题，我们茂发耀、vivo、OPPO、小米发出问询。 OPPO此前答复：“出于便当性等客不雅缘由，挪用无妨碍办事能够无需授权。无妨碍办事的利用前提是需要遵照用户现私规范，其仅会被用于帮帮利用有坚苦的用户更好的利用智能设备。”vivo则暗示，公司“对智能体行为有严酷的管控策略，全方位保障智能体的平安可控。相关权限均正在现私政策中声明，并获取用户同意，用户可自从封闭。”截至发稿，其余手机厂商未有答复。公开报道显示，2017年，谷歌曾向所有开辟者发送邮件，要求挪用无妨碍功能的App必需明白描述用处，不然将无法上架谷歌的使用商铺；2022年，谷歌正在13中进一步强化，侧载App（用户间接从互联网下载的App）利用无妨碍功能。国内手机厂商正在系统之上建立本人的生态，小米、荣耀、vivo、OPPO承继了的平安机制。前述手机厂商人士向我们强调，“手机智能体同样无法绕开无妨碍功能的原无机制，的数据平安系统仍正在一般运转。”从现实环境来看，六款AI手机为用户供给了分歧程度的平安防护。正在系统设置中，都有同一的无妨碍使用列表和节制开关，若是用户要手动为某个App敞开无妨碍大门，系统会弹出强提醒，包罗强制阅读、“高权限”的风险提醒，以及无妨碍功能的具体引见。但业界仍然有担心声。手机智能体是手机厂商的原出产品，而平安法则又由手机厂商自行制定，有没有可能供给特殊待遇？比拟之下，像AutoGLM如许的第三方手机智能体，需要指导用户跳转到“无妨碍使用列表”，阅读完整的平安提醒，再让用户手动无妨碍功能。第三方手机智能体的处境显得比力微妙。一方面，它们无手机厂商那样间接鞭策企图框架合做，只能依赖视觉线——也就是“读屏+模仿点击”，从而看起来更容易权限；另一方面，它们又必需严酷恪守手机厂商制定的逛戏法则，权限挪用过程反而更通明、更无限。“言语大模子已会规避、违法犯罪等内容，但若是用户说‘转5000块钱给’，大模子不会感觉这个聊天话题有什么问题。” 正在推出App Agent后，平安和合规是多次呈现的话题。张驰暗示，手机智能体需要更清晰的场景划分，好比能够代订咖啡，但不克不及正在未经用户确认的环境下转账、点窜系统设置或恢复出厂模式。大模子本身的平安机制之外，还需要一套监视模式，手机智能体不会施行超出平安范畴的操做，“但目前这方面的研究是不敷的。”张驰坦言。OpenAI正在Operator中已设立了一系列平安护栏。例如，涉及输入暗码的操做时，Operator会进入用户手动接管模式，这意味着不会存储暗码消息；答应用户一键删除浏览数据和汗青对话，并登记所有网坐。不外就正在本年2月初，《邮报》的一篇报道指出，Operator等闲冲破了OpenAI的平安护栏，正在未经授权的环境下刷信用卡采办食物。中国信通院近期亦透露，正在面临平安风险指令时，他们发觉智能体往往会不加判别地施行预设使命，可能成为垂钓、电信诈骗的冲破口。目前测试的六款国产手机智能体正在输暗码、下单领取等场景需要用户手动操做。三星的Bixby供给了“当地化处置数据的选项”，削减数据上云带来的泄露风险。我们就更多平安机制问题，向vivo、小米、OPPO、荣耀发出扣问。截至发稿，vivo简单回应称，其智能体设有多沉平安防护办法，包罗指令办理、权限办理、行为办理等。其余厂商未有答复。客岁5月，微软公司曾正在Copilot帮手里添加“Recall”（召回）功能。每隔几秒，系统就会对当前电脑屏幕截屏，再由AI识别、理解用户企图，让用户“跨时间搜刮找到本人需要的内容”。“召回”功能激发争议，一度被称为“现私恶梦”。正在强烈的压力下，微软最终决定将“召回”功能从opt-out改为opt-in模式（需要自动，默认封闭）。。“代办署理劫持”等新型体例已被中美多个研究机构关心，彭根指出，这种可能操纵智能体的权限给其他人发垂钓邮件、打德律风诈骗、盗刷资金。以至手机可能被恶意法式劫持，成为僵尸收集的节点，为黑客施行大规模。手机智能体的野心不只是“帮手”，更但愿成为用户的“代办署理人”，正在比价、规划、社交沟通等更复杂的场景阐扬感化。但若是做出了错误决策或者面对窘境，谁能为成果担责？更极端的假设是，智能体的自从鸿沟不竭扩大，将来会不会呈现AI正在用户不知情的环境下“自从下单”“从动决策”？外行业中，关于手机智能体的轨制性会商曾经正在进行。一位监管侧人士提到，本年1月1日生效施行的《收集数据平安办理条例》对从动化东西做出了特殊。好比《收集数据平安办理条例》第二十指出，从动化采集手艺不克不及干扰收集办事一般运转。不外，“绝大大都用户缺乏取‘小我帮理’互动的经验，无法精确构成正在这一场景中相关小我消息利用的合理预期。” 正在这种不合错误等的关系下，多位法令业内人士指出，手机智能体需要明白授权，而且要用可视化的界面向用户清晰注释数据流向。还有一些现有轨制无法触及的地带。大学院副院长戴昕担忧，供给不成代替的价值，这时候哪怕不竭提示用户“不要输入任何保密消息”，可能也不会有帮于改善选择——这意味着保守法令要求的“奉告-同意”感化会变得无限。朱悦还提到，越来越多端侧智能体味但愿供给个性化、定制化办事。若是AI能更好地记住用户的偏好，好比点咖啡的口胃习惯和活动饮料的选择机会，利用体验天然会大幅提拔。可是，“这些跨场景整合了用户偏好，将来贸易化变现的比力大，可能正在数据平安和贸易合作之间带来挑和。”日前，荣耀已颁布发表发布新的“荣耀阿尔法计谋”及AI手艺方案，联想也打算推出一系列“AI+终端”产物。市场调研机构Canalys预测，2024年具备生成式AI能力的手机出货量将占全球智妙手机市场的16%，到2028年，这一比例将提拔至54%。但切换到贸易合作的视角，又会看到另一个故事。智能体范畴的新玩家不竭涌入，好处选择变得史无前例的复杂。国际投行巴克莱正在最新的研报中，将“智能体”列为2025年整个AI行业的风向标。正在国内，智谱AI、DeepSeek等AI草创公司，曾经屡次呈现正在各大手机厂商的合做通稿中。手机厂商的智能体策略正从完全自研转向“自研+合做”双轨并行。正在被问到手机智能体和第三方大模子供给商的关系时，OPPO方面向我们注释，“智能体素质上是产物，大模子是后端能力。做为硬件厂商会考虑到产物体验，引入各家大模子能力，通过度流挪用各个底层大模子能力劣势。”简而言之，手机公司做产物、大模子公司供给手艺。另一边，擅长打制产物的互联网巨头也正在加紧结构智能体。贸易征询机构沙利文、头豹研究院比来发布的《2024年中国AI Agent年度榜单》显示，年度最受欢送的Agent榜单中，互联网厂商占领了50%的份额，70%的产物用正在C端通用场景中。例如领取宝客岁推出的App“支小宝”，就试图打制一个“超等入口”，让AI智能体挪用领取宝小法式内的外卖、金融办事、糊口办事等功能。对互联网公司来说，手机智能体的成长可能触及焦点。彭根提到，手机智能体能从动点外卖、网购、发微信动静，也意味着能收集用户散落正在各个App中的行为数据。正在如斯款式下，各方有多大动力鞭策合做、共享数据？仍是一个悬而未决的问题。前述业内人士因而认为，“终究系统开辟者有适配成本，也有大厂为了本人的闭环生态，是不会插手合做的。从互联互通和市场所作的角度，需要细心思虑（实现体例）。”比拟大公司间的合作，中小开辟者正在这场变化中显得愈加被动。智能体的兴起可能会减弱他们的空间，也可能成为进入下一代软件生态的机遇。张驰提到，软件界面的成长履历了几个阶段：最早是纯代码号令行界面（CLI），随后是现正在的图形界面（GUI），通俗人也能曲不雅地操做App。下一代，他认为极可能是言语界面（Language UI），一句口令就能操做App。 “所以供给手机智能体的企图框架，其实就相当于帮开辟者用最低成本将UI升级到下一代，这会是一大吸引力。”至于一个万能AI智能体味对保守App生态带来哪些冲击，张驰认为，市场需求可能会变得愈加细化。他举例，一个专业的图像处置师，修婚纱照时仍是需要用专业软件进行精细调整，不成能用言语指令一步到位。分歧形态的使用会办事于分歧的用户需求，而不是简单的代替关系。已经爬虫和从动化采集手艺激发的不合理合作大和，似乎已为手机智能体埋下一处伏笔。各朴直在现私平安、数据流动及贸易合作中若何找到均衡，会是接下来一大看点。

上一篇：科瑞手艺：公司属于非标从动化公用设备出产企

下一篇：行政公益诉讼典型案例（第二批）