三星与谷歌新机首推“屏幕自动化”:智能体从“代替点按”走向“系统级可控协同”

问题——智能体“会操作手机”走到分水岭 近期,智能终端行业加速将大模型能力从“能对话”推进到“能办事”。在三星Galaxy S26系列发布节点,谷歌宣布在涉及的机型首发Gemini“屏幕自动化”(Screen Automation)功能,使智能体能够在手机界面上执行若干操作流程,并将关键确认步骤交由用户完成。此变化意味着,智能体不再只是信息助手,而开始介入具体任务执行,覆盖点餐、出行、零售等高频场景。同时,如何在提升效率与确保安全之间取得平衡,成为行业共同面对的新课题。 原因——安全、合规与生态治理推动“受控自动化” 从技术路径看,当前“代操作”大体存在两种思路:一类依赖对屏幕图像的识别与模拟触控,优势是跨应用通用,代价是对界面变化敏感、误触风险更高;另一类则尝试在系统层面构建可管理的执行环境,并通过接口直接调用应用能力。谷歌此次选择后者的倾向更为明显:其“屏幕自动化”并非直接在用户桌面环境中无约束运行,而是在Android系统内启用本地虚拟沙盒,让智能体在隔离环境中操作目标应用,过程可被用户实时查看,并支持随时中止与接管。 这一“看似激进、实则克制”的设计,背后有多重现实考量:其一,欧美市场对隐私保护、金融交易与账户安全更为敏感,用户对“自动点击下单、自动填写信息”的担忧更突出;其二,平台需要建立责任边界,避免智能体误操作造成纠纷;其三,应用生态高度复杂,若无统一治理机制,通用代操作可能引发权限滥用、灰黑产利用等风险。为此,谷歌在首批开放中采取应用白名单策略,目前支持的主要集中在出行与餐饮等少量服务类应用,同时对不同用户等级设置每日使用额度,以控制成本与风险外溢。 影响——手机交互从“手动点击”走向“系统级编排” 业内普遍认为,屏幕自动化的意义不止于“替用户点几下”。其直接影响在于:一是降低操作门槛,将复杂流程浓缩为自然语言指令,有望提升老年群体、跨语言用户以及多任务人群的使用效率;二是推动应用服务的再组织,未来竞争焦点可能从“谁的入口更显眼”转向“谁的能力更易被调用、组合更顺畅”;三是重塑平台治理逻辑,智能体一旦进入交易链路,平台必须把权限隔离、审计追踪、风控校验等能力系统化,从而形成可复制的合规框架。 更值得关注的是,谷歌并未将“代操作”停留在GUI层。就在相关产品发布前后,谷歌推出新的应用能力接口体系AppFunctions,允许应用向系统声明可被调用的功能模块,例如“搜索餐厅”“加入购物车”“提交订单”等。当用户发出任务指令时,智能体可优先通过接口直接触发能力,而非逐步模拟点击界面。这意味着行业正在从“看屏操作”向“能力调用”过渡:前者像临时替身,后者更接近系统级的流程编排。 对策——以“可控、可审计、可中断”建立信任底座 在智能体深入终端与应用的背景下,平台、厂商与应用开发者需协同建立更清晰的规则体系。 一是强化权限最小化原则。对涉及支付、账号、隐私信息的关键步骤坚持“用户最终确认”,并通过分级授权、一次性授权等方式降低长期风险。 二是完善隔离机制与审计机制。通过沙盒执行、日志留存、风险提示与异常回滚等手段,使每一次自动化执行“可见、可追、可撤”。 三是推动接口标准化。鼓励应用以能力声明方式接入系统调度,减少对界面识别的依赖,降低因界面变化引发的失败率与误触率,并为监管与风控提供更明确的责任边界。 四是加强生态治理与反滥用。对高频、批量、异常请求建立识别与限流机制,防止自动化能力被用于刷单、羊毛党或黑灰产链路。 前景——从“助手”到“系统代理”,竞争将转向生态与规则 展望未来,智能体在手机上的落地,或将经历“受限场景试点—接口化能力扩容—跨应用任务编排—系统级代理”的演进。短期内,出行、餐饮等低风险、高频场景仍将是主要试验田;中期看,随着AppFunctions等接口生态成熟,更多应用将以“可调用能力”而非“可见页面”参与智能体协作;长期看,终端操作范式可能从“应用中心”走向“任务中心”,用户关注点将从打开哪一个App转向“把事情办成”。 不过,智能体越强,越需要制度化约束。未来市场竞争不仅比拼模型能力,更比拼系统治理、开发者生态与用户信任建设。谁能在效率、成本、安全与合规之间建立稳定平衡,谁就更可能在新一轮终端变革中占据主动。

智能终端自动化技术的演进,本质上是技术创新与人的需求之间的持续磨合。当机器逐渐获得一定“操作权”,如何在效率提升与用户掌控之间取得平衡,将成为检验技术成熟度的重要尺度。这场围绕“控制与信任”的产业探索,不仅影响商业竞争格局,也将深入界定数字化时代的人机关系边界。