切换到宽版
  • 13阅读
  • 2回复

[手机]AI手机的终局,“读屏”还是“对话”? [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
221613
金币
691588
道行
2006
原创
2450
奖券
3340
斑龄
42
道券
1233
获奖
0
座驾
设备
摄影级
在线时间: 48090(小时)
注册时间: 2008-10-01
最后登录: 2026-01-25
只看楼主 倒序阅读 使用道具 楼主  发表于: 9小时前
— 本帖被 兵马大元帅 执行提前操作(2026-01-25) —

定焦One(dingjiaoone)原创

作者 | 金玙璠

编辑 | 阮梅

最近科技圈的两场“AI秀”先后刷屏。

在大洋彼岸,当地时间1月12日,苹果和谷歌宣布合作,要给Siri用上谷歌的Gemini。但苹果的做法,不是直接让Gemini操作手机上的App,而是用户说什么,Siri先理解意图,然后去调用相应的应用。换句话说,AI只是个“调度员”。这套操作,很苹果。

另一边,国内的情况就热闹得多。字节跳动的豆包AI手机一度刷屏,AI可以帮你打车、购物、订票,就像一个真正的“万能助理”。这套打法,很互联网。

你看,同样是AI手机,实现的方式完全不同。这背后,其实是两条技术路线:

一条路线,是让AI和App学会“对话”,通过标准接口直接调用应用能力,被称为A2A(Agent-to-Agent)。这条路需要所有人坐下来一起制定规则,走得慢,但更稳妥。

另一条路线,是给AI一把“万能钥匙”,通过系统权限“读屏”并模拟操作APP,被称为GUI(图形用户界面)。这条路简单直接,走得快,但可能存在风险。

这背后不只是技术选择,本质上,是不同公司基于自身利益与生态位,对未来主导权的一次押注。谁的模式能赢得用户,很可能将决定:下一个十年,我们如何与手中的设备共处。

两种解法,两种逻辑

要看懂这场牌局,我们先得看清这两条路线背后的逻辑。

GUI路线,主打一个“快”字。

它的实现方式,最初是AI助手借助安卓系统中一个名为“无障碍服务”的功能。这项权限最初是为有视力障碍的人士设计的,好让他们能通过语音指令来操作手机。现在,AI通过这项权限可以“读懂”屏幕上的文字和图标,然后模拟人的手指去点击、滑动,从而操作各种App。之后不久,市场上出现了比调用无障碍权限更“领先”的路线,也就是AI助手拿到了手机厂商给自己的系统签名权限,从而通过进程注入,更丝滑、无感地模拟操作。

这样做的好处显而易见——它绕开了所有App厂商,直接把AI能力覆盖到了现有的应用生态中。对于急于在AI浪潮中抢占身位的厂商来说,这是最快的验证路径。

“当用户习惯了通过一个AI助手来操作所有App时,这个助手就成了新的流量入口,这背后的商业价值,相当有吸引力。”关注互联网公司的投资人林亮表示。

不过,对于用户来说,体验现阶段的GUI可能“时灵时不灵”。

“GUI很依赖应用界面的稳定性”,应用开发者陈刚表示,“如果App更新了界面设计,比如一个按钮的位置变了,都可能让AI‘点错’位置,整个任务流程就会卡住。”

陈刚指出,当任务链路变长时,这种不稳定性会被放大。有数据显示,一个包含5个步骤的操作,即便每一步的成功率都高达90%,整个任务的最终成功率也可能骤降至59%。

图源 / pexels

除了体验上的不确定性,很多用户担心的是安全和隐私风险。GUI模式下,AI需要通过“读屏”来理解屏幕内容,进而决定下一步操作,就意味着,它需要实时获取屏幕信息。尽管厂商们承诺数据会加密或不上传,但用户心中难免会有疑虑:用户的数据在什么情况下被收集、如何被使用、谁来负责?

A2A则是完全不同的思路。它不让AI“看”屏幕,而是为AI和各个应用建立一套通用的“对话语言”——也就是标准的API接口。

这听起来有点抽象,你可以想象这样的场景:你对手机说“帮我打车去机场”,系统Agent理解后,直接告诉相应的Agent:“用户要去机场,请提供打车服务。”出行App的Agent收到请求后,在自己的权限范围内完成任务。

A2A的核心,是“合作”。这一路线中有个关键设计叫“双重授权”:同时获得用户和应用方的授权。

这样一来,权责变得清晰了。用户可以对不同的App设置不同的权限等级。比如,允许AI读取外卖App来比价,但禁止读取银行App;对于转账这样的高风险操作,每次执行都需要你的额外确认。由于数据流动是通过明确的接口进行的,是有据可查的,即便出了问题也可以追溯。

那为什么不是所有厂商都选择A2A呢?

因为协调成本很高。A2A需要操作系统厂商、应用开发者共同推进一套标准化的协议。没有足够多的应用支持,A2A的价值就显现不出来;没有明确的价值,开发者就缺乏适配的动力。

所以,A2A路线注定是一场“持久战”,它“慢”在生态共识的达成与基础设施的建设。

现在,两条路线的逻辑就清楚了:GUI虽有一定风险但高效,能让厂商用最小代价快速验证AI手机的可能性。A2A稳妥但缓慢,需要更多协调和投入,不过一旦成功,就能建立一套更安全的体系。

有人可能会问,GUI路线就不能通过技术手段实现分级授权吗?理论上可以,但这样做也就失去了相对于A2A的“快速部署”优势,同时还要承受更高的技术成本。

目前行业内相对公认的路径是,GUI探路尚可,因为它会把智能体的便利和风险都充分呈现出来,最终还是要看A2A,因为只有满足了安全和便利两个条件,才能走得远。如果跳出中国市场,全球的科技巨头们是如何选择的呢?

不同路线背后,巨头们的算盘

在手机端,海外巨头几乎都选了A2A,推动API(接口)集成。

苹果最直接。它升级了“App Intents”框架,要求所有想接入AI功能的应用,都必须按照苹果制定的标准提供API接口。

谷歌的路更复杂。它一边推“AppFunctions API”来统一智能体交互标准,一边大力推广各类应用适配,这是个缓慢的过程。

微软自研了“AutoGen”这样的多智能体对话框架,探索不同AI智能体怎样更好地协同。

OpenAI和Anthropic虽然不直接做手机,但它们推动的“函数调用”和“工具使用”功能,实际上就是A2A的技术前身。根据Anthropic公布的数据,从2025年3月的2000多个活跃MCP服务,到12月已经超过1万个——这个增速相当惊人。

为什么无论是苹果、谷歌这样的操作系统霸主,还是微软、OpenAI这样的AI领头羊,都选了缓慢的接口路线?

因为它们是现有秩序的建立者和最大受益者。

苹果、谷歌的核心利益是维护平台、稳定开发者。未经三方授权就简单使用GUI,这种“外挂式”的路线,本质上是在挑战它们的统治地位。所以它们必然会选A2A这种“可控”的方案,把AI能力牢牢掌握在自己手中,作为强化生态控制力的新工具。

微软手握Windows和Office两大王牌,其AI战略的核心是提升生产力,服务企业客户。对于这些客户来说,安全和稳定是第一需求,无法接受GUI的不确定性和安全风险。

OpenAI作为AI技术的“军火商”,目标是让自己的模型被尽可能多的应用“调用”。所以它必须提供稳定、可靠的API接口,而不是无法确保结果的GUI工具。

海外巨头是不是完全放弃GUI了?并非如此。

谷歌的Gemini和微软的Copilot,在手机上推出了“屏幕共享”功能——让用户可以把屏幕分享给AI,AI可以“看”并回答问题,但本身不会去操作。

海外巨头的GUI尝试,主要在PC端,而且,严格限制在受控环境(如浏览器、沙盒、虚拟机)内。

OpenAI把具备GUI操作能力的Agent限定在Atlas浏览器内,明确禁止它运行代码、下载文件或访问本地应用。Anthropic在2024年底就发布了Computer Use API,但相关功能至今仅供开发者在虚拟环境中测试。

微软的做法最具代表性。在其Recall功能因高频截屏引发隐私争议后,它直接把“看”和“做”两个动作拆分了——Copilot Vision只能“看”用户共享的应用并提供建议,不能操作;有操作能力的Copilot Actions必须在单独的沙盒桌面中进行。

所以,海外巨头出于“维护现有秩序”的考虑,坚定地走A2A路线,GUI尝试只停留在“测试版”,并未向普通用户大规模推广。

相比之下,国内市场格局更复杂,巨头中既有“挑战者”也有“守成者”,选择也因此更多样。

字节跳动走的是高权限GUI路线。它通过豆包大模型与中兴努比亚深度合作,推出集成系统级AI助手的“AI手机”,希望绕开现有的生态壁垒,争夺下一代流量入口。

阿里、华为、OPPO,都布局了A2A路线。

阿里的动作很直接,就是通过自建的、可控的API体系,将“通义千问”这个超级大脑,深度集成到淘宝、支付宝、高德等核心业务中。

华为则在2025年底发布的HarmonyOS 6中,通过“意图框架”,实现了“小艺”智能体与十余款鸿蒙原生应用的A2A协作。

OPPO也联合了支付宝等头部应用,共同探索A2A的行业标准。

但这些看似相同的选择背后,是各自的商业考量。

对阿里来说,这套打法“攻守兼备”。一方面,作为中国头部电商平台,核心利益是用可控的API保护庞大的交易生态。但另一方面,它又不止于防守,而是通过通义千问打造一个入口,让用户在阿里生态内完成更多交易和服务。

华为和OPPO当然不想只做硬件制造商,容易被“管道化”,所以,在A2A路线之上,它们还在走一条以自家操作系统或AI大模型为核心的“混合生态”的路线。在这套体系里,既有标准的API调用,也有更底层的系统级智能体,最终目的都是为了掌握生态主导权,从一个“设备提供商”,升级为未来生态的“规则制定者”之一。

简言之,国内外厂商多数都选了A2A。只是区别在于,海外巨头用它来强化现有控制;国内厂商则用它来争取话语权,一边参与A2A的标准制定,一边通过自身的OS、大模型或生态优势,建立以自己为核心的混合生态。

为什么主流厂商更倾向A2A?

选择背后,是不同玩家在牌桌上的位置使然。不过,从这些主流厂商的选择中,我们可以得出一个结论:GUI路线虽然能快速验证AI手机的可能性,但A2A正获得越来越多主流厂商的青睐。

是因为A2A更安全、更稳定吗?不全是。它之所以被看作是未来,可以从技术演进、监管合规和商业成本三个维度来看。

从技术角度看,A2A更符合AI分工协作的本质。

GUI路线要求大模型同时承担“感知屏幕(眼)、规划任务(脑)、模拟操作(手)”的工作,负担重、效率低且易出错。A2A路线,则是让AI回归到它最擅长的“大脑”角色,专注于理解与任务调度,具体的执行交给各垂直领域优化的应用智能体。这种“各司其职”的模式,不仅更高效可靠,也为未来更复杂的智能体协作打下了基础。

从监管角度看,A2A是更安全、更合规的选择。

GUI的“读屏”行为在全球范围内都面临越来越严格的隐私监管。2025年12月,美国德州起诉了包括三星在内的多家智能电视制造商,指控它们通过高频截屏非法收集用户数据。这为所有采用类似技术的厂商敲响了警钟。

图源 / pexels

而A2A由于数据流动通过明确的接口进行,并且有“双重授权”机制保障,为厂商建立了一道合规“防火墙”。

最后,也是最关键的,从商业成本角度看,A2A是更经济的选择。GUI方案看似“快”,但长期运营成本高。

陈刚做了个类比:

GUI模式就像雇了一个需要24小时盯着监控屏幕的保安,要不断地看、不断地分析图像。这消耗的是大量的“脑力”(云端计算资源)。

A2A模式是建立了一个高效的内部通讯系统。当需要某个部门配合时,发送一条结构化的简单指令即可。这消耗的只是“通讯费”(API调用费用)。

对于手机厂商来说,如果几亿用户每天都在用AI读屏,算力与带宽开支将是一笔巨大的开支。这种商业模式,在规模化商用的前景下,几乎是不可持续的。

所以无论从技术、监管还是商业成本来看,A2A都是更优的选择。更重要的是,一旦这个生态建立起来,它将带来全新的商业机会。这也是最让行业人士兴奋的原因。

首先,协议层与中间件将成为核心。PC时代有Windows,移动互联网时代有iOS和安卓。在AI时代,A2A、MCP等协议标准,就像是新时代的“操作系统”和“开发语言”。谁能掌握标准,谁就可能成为下一个平台级的巨头。

其次,“智能体工厂”与垂直Agent服务商将迎来爆发。基于标准协议,为金融、医疗、物流等特定行业开发专属智能体,将成为一个巨大的市场。未来,可能会有专门的“智能体商店”,你可以像下载App一样,为你的手机雇佣一个“私人理财顾问”或“专属旅行规划师”。这为无数中小开发者,提供了全新的创业机会。

最后,现有公司也将在新生态中重新找到自己的位置。云厂商将成为智能体的“训练场”,手机厂商则成为智能体的承载终端。它们都将获得新的增长。

对于中国的科技公司而言,这是一个在底层协议和基础设施上,与全球巨头同台竞技的绝佳机会。

结语

聊了这么多技术和商业,我们不妨回到一个最根本的问题:AI,到底应该如何服务于人?

AI手机的发展,正从功能炫技的“概念期”,进入生态构建期。GUI和A2A,从不同维度给出了各自的回答。

GUI用一种最直观的方式,完成了初步的市场启蒙。它让我们提前看到了AI手机未来的样子——一个能听懂、会操作的伙伴。这种“快”的优势,帮助厂商们快速验证了AI手机的可能性。但安全性存疑、经济性不高,决定了它更可能是一种过渡方案。

A2A路线尽管起步缓慢、协调艰难,但它在做一件更基础的事——为AI和应用之间建立一套清晰的“规则”。这些规则看起来很复杂,但本质上是在回答一个问题:AI应该在哪些地方有权力,在哪些地方没有。一旦这套规则被广泛接受和应用,就能形成一个更稳定、更可控的生态。这必然是一场持久战。

这场路线之争,往深了想,其实是我们希望与机器建立何种关系的思考。

AI手机的未来,或许并不在于让手机变得无所不能,去替代我们做所有事。而在于,它能否成为一个更聪明的“副驾驶”,在我们做决策时,提供更精准的信息、更周全的建议,最终把选择权交还给我们自己。说到底,技术终究是为人服务的。

*题图来源于pexels。应受访者要求,文中陈刚、林亮为化名。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
221613
金币
691588
道行
2006
原创
2450
奖券
3340
斑龄
42
道券
1233
获奖
0
座驾
设备
摄影级
在线时间: 48090(小时)
注册时间: 2008-10-01
最后登录: 2026-01-25
只看该作者 沙发  发表于: 9小时前
AI手机路线之争:GUI的“快”与A2A的“稳”,谁将定义未来?

AI手机的普及已从“概念期”进入“生态构建期”,而技术路线的选择成为关键分水岭。当前,行业形成两大阵营:GUI(图形用户界面)路线以“系统权限模拟操作”快速落地,A2A(Agent-to-Agent)路线则通过“标准化接口”构建安全可控的生态。两种路径的背后,是技术逻辑、商业利益与生态主导权的博弈。
一、GUI路线:以“快”破局,但风险与成本并存
1. 技术逻辑:绕过应用,直接“读屏+模拟操作”
实现方式:  
早期依赖安卓“无障碍服务”权限,通过“读屏”理解屏幕内容并模拟点击;  
后期升级为系统签名权限,通过进程注入实现更无感的操作(如豆包AI手机)。  
核心优势:  
快速验证:无需协调应用开发者,直接覆盖现有生态,抢占用户心智;  
体验直观:用户可通过语音或指令完成跨应用操作(如打车、订票),形成“万能助理”感知。  
2. 风险与挑战:体验、安全与成本的“三重困境”
体验不稳定:  
应用界面更新可能导致AI“点错”按钮,任务链路越长,成功率越低(如5步操作成功率仅59%)。  
安全隐私争议:  
“读屏”需实时获取屏幕信息,用户担忧数据收集范围与使用方式(如德州起诉三星非法截屏案)。  
长期成本高企:  
持续“读屏”消耗大量云端算力与带宽,规模化后成本不可持续(类比“24小时监控保安”)。  
3. 典型案例:字节跳动的“高权限突围”
豆包AI手机:  
与中兴合作,通过系统级权限实现跨应用操作(如自动比价、跨平台下单),试图绕过头部厂商生态壁垒。  
策略本质:以“流量入口”为目标,通过快速落地验证商业模式,但面临安全合规与长期成本的双重压力。
二、A2A路线:以“稳”取胜,生态与规则的“持久战”
1. 技术逻辑:建立AI与应用的“标准化对话语言”
实现方式:  
通过API接口实现“双重授权”(用户+应用方),AI仅作为“调度员”传递指令(如对手机说“打车去机场”,出行App直接响应)。  
核心优势:  
安全可控:数据流动通过接口明确记录,权责清晰,满足隐私监管要求;  
高效协作:AI专注“理解与调度”,应用专注“执行”,形成分工明确的智能体生态。  
2. 挑战与代价:生态共识的“慢变量”
协调成本高:  
需操作系统厂商、应用开发者共同推进标准化协议,缺乏足够应用支持时价值有限;  
案例:谷歌“AppFunctions API”推广缓慢,微软“AutoGen”仍在探索多智能体协同。  
短期体验劣势:  
相比GUI的“无感操作”,A2A需应用主动适配接口,初期功能覆盖度较低。  
3. 典型案例:海外巨头的“规则捍卫战”
苹果:升级“App Intents”框架,强制应用提供标准化API,维护平台控制权;  
谷歌:推广“屏幕共享”功能(AI仅“看”不操作),PC端限制GUI在沙盒环境中运行;  
OpenAI:将GUI操作限定在Atlas浏览器内,禁止运行代码或访问本地应用。  
策略本质:通过A2A强化生态主导权,避免GUI“外挂式”路线挑战现有秩序。
三、路线之争的本质:技术、商业与生态的三角博弈
1. 技术演进:分工协作是AI的本质需求
GUI要求大模型同时承担“感知、规划、执行”任务,负担重且易出错;  
A2A让AI回归“大脑”角色,应用作为“执行者”优化垂直场景,符合技术分工趋势。  
2. 监管合规:隐私保护成为“生死线”
全球隐私监管趋严(如欧盟《AI法案》、美国德州截屏案),GUI的“读屏”行为面临法律风险;  
A2A的“双重授权”与接口数据流动,为厂商提供合规“防火墙”。  
3. 商业成本:长期经济性决定路线可持续性
GUI的算力与带宽成本随用户规模指数级增长,规模化后几乎不可持续;  
A2A的API调用费用低廉,更符合商业效率原则(类比“内部通讯系统” vs. “24小时监控”)。  
4. 生态主导权:谁掌握规则,谁定义未来
海外巨头:作为现有秩序的受益者,通过A2A巩固平台控制权(如苹果、谷歌);  
国内厂商:  
挑战者(如字节):以GUI快速争夺流量入口,试图打破生态壁垒;  
守成者(如华为、阿里):通过A2A参与标准制定,同时以OS或大模型构建混合生态,升级为“规则制定者”。  
四、未来展望:A2A或成主流,但GUI仍有过渡价值
1. A2A的终极愿景:从“操作系统”到“智能体生态”
协议层:A2A、MCP等标准将成为AI时代的“开发语言”,掌握标准者有望成为平台级巨头;  
应用层:垂直智能体服务商爆发(如“私人理财顾问”“旅行规划师”),形成“智能体商店”;  
基础设施层:云厂商提供训练场,手机厂商成为承载终端,重新划分产业链价值。  
2. GUI的过渡角色:市场启蒙与风险暴露
GUI通过快速落地让用户感知AI手机价值,但安全性与经济性缺陷决定其难以长期主导;  
行业共识逐渐向A2A倾斜,但GUI的探索为生态提供了宝贵经验(如用户需求、场景痛点)。  
3. 中国的机会:底层协议与基础设施的“同台竞技”
国内厂商在A2A标准制定中积极参与,同时通过OS(如鸿蒙)、大模型(如通义千问)构建混合生态;  
这一过程为中国科技公司提供了一次在底层技术领域与全球巨头竞争的契机。  
结语:AI手机的终极命题——技术为人服务
路线之争的背后,是更深层的思考:AI应如何与人类协作?  
GUI的“快”展现了技术赋能的想象力,但风险与成本提醒我们:技术不能凌驾于人之上;  
A2A的“稳”通过规则与分工,试图构建一个更可控、更高效的生态,但需避免过度“技术主义”忽视用户体验。  

未来的AI手机,或许不会成为“全能助手”,而是更聪明的“副驾驶”——在尊重用户选择权的前提下,提供精准信息与周全建议。毕竟,技术的终极目标,始终是让人拥有更大的自由与掌控力。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
169100
金币
506971
道行
20030
原创
768
奖券
359
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20887(小时)
注册时间: 2012-06-21
最后登录: 2026-01-25
只看该作者 板凳  发表于: 8小时前
AI手机的终极形态之争,本质是“读屏”(GUI Agent)与“对话”(A2A)两条技术路线的博弈,其选择将重塑未来十年人机交互模式。以下是核心分析:

⚙️ 一、“读屏”路线:高效但存隐忧
技术逻辑
通过系统权限(如安卓“无障碍服务”或更高层级的签名权限)让AI“看懂”屏幕内容,模拟人类点击、滑动操作APP。例如:AI自动比价购物、跨应用订票1245。
优势:

快速落地:无需应用开发者配合,可覆盖现有生态114。
用户直观体验:如豆包手机“一句话点咖啡”,操作过程可视化57。
核心风险

稳定性差:APP界面更新易导致操作失效,多步骤任务成功率骤降(5步操作成功率或低于59%)417。
隐私与安全:需实时读取屏幕信息,存在数据泄露风险,用户对权限滥用疑虑深重2821。
🤝 二、“对话”路线:稳健但生态门槛高
技术逻辑
建立标准化API接口(如苹果App Intents、谷歌AppFunctions API),让AI直接与应用“对话”调用服务。例如:用户说“打车去机场”,系统Agent直接调度出行App的Agent执行124。
优势:

权责清晰:“双重授权”机制(用户+应用方)保障安全与追溯性24。
体验流畅:无需依赖界面稳定性,任务执行更可靠39。
发展瓶颈

生态协同难:需操作系统厂商、开发者共同制定协议,协调成本高(如Anthropic的MCP接口1年增长5倍仍不足)212。
初期价值难显:应用支持不足时,用户体验提升有限1415。
⚖️ 三、终局判断:GUI探路,A2A定局
短期格局

GUI为主流过渡方案:尤其适合急于验证AI能力的厂商(如国内互联网公司),通过最小成本快速迭代3917。
A2A成巨头共识:苹果、谷歌、微软均押注API路线,因现有生态利益与安全需求1212。
长期终局

A2A是必然方向:仅当安全与便利兼备时,AI手机才能规模化普及。OPPO等厂商明确将GUI定位为“长尾场景兜底”,主力推动Agent间协作141519。
交互革命是核心:无论何种路线,AI终将颠覆GUI界面,实现“主动服务+个性化”(如记忆系统预判需求)121519。
💡 四、用户选择启示
重便利性:可尝试GUI方案(如豆包手机),但需接受潜在风险821。
重安全与稳定:优先选A2A生态成熟品牌(如苹果、谷歌),关注端侧隐私保护212。
未来AI手机终局并非二选一,而是 A2A主导的智能体互联网,GUI仅作补充。技术终将回归本质:让设备成为“懂你的超级助理”,而非界面操作工具
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个