三星与谷歌新机首推“屏幕自动化”：智能体从“代替点按”走向“系统级可控协同”

问题——智能体“会操作手机”走到分水岭近期，智能终端行业加速将大模型能力从“能对话”推进到“能办事”。在三星Galaxy S26系列发布节点，谷歌宣布在涉及的机型首发Gemini“屏幕自动化”（Screen Automation）功能，使智能体能够在手机界面上执行若干操作流程，并将关键确认步骤交由用户完成。此变化意味着，智能体不再只是信息助手，而开始介入具体任务执行，覆盖点餐、出行、零售等高频场景。同时，如何在提升效率与确保安全之间取得平衡，成为行业共同面对的新课题。原因——安全、合规与生态治理推动“受控自动化” 从技术路径看，当前“代操作”大体存在两种思路：一类依赖对屏幕图像的识别与模拟触控，优势是跨应用通用，代价是对界面变化敏感、误触风险更高；另一类则尝试在系统层面构建可管理的执行环境，并通过接口直接调用应用能力。谷歌此次选择后者的倾向更为明显：其“屏幕自动化”并非直接在用户桌面环境中无约束运行，而是在Android系统内启用本地虚拟沙盒，让智能体在隔离环境中操作目标应用，过程可被用户实时查看，并支持随时中止与接管。这一“看似激进、实则克制”的设计，背后有多重现实考量：其一，欧美市场对隐私保护、金融交易与账户安全更为敏感，用户对“自动点击下单、自动填写信息”的担忧更突出；其二，平台需要建立责任边界，避免智能体误操作造成纠纷；其三，应用生态高度复杂，若无统一治理机制，通用代操作可能引发权限滥用、灰黑产利用等风险。为此，谷歌在首批开放中采取应用白名单策略，目前支持的主要集中在出行与餐饮等少量服务类应用，同时对不同用户等级设置每日使用额度，以控制成本与风险外溢。影响——手机交互从“手动点击”走向“系统级编排” 业内普遍认为，屏幕自动化的意义不止于“替用户点几下”。其直接影响在于：一是降低操作门槛，将复杂流程浓缩为自然语言指令，有望提升老年群体、跨语言用户以及多任务人群的使用效率；二是推动应用服务的再组织，未来竞争焦点可能从“谁的入口更显眼”转向“谁的能力更易被调用、组合更顺畅”；三是重塑平台治理逻辑，智能体一旦进入交易链路，平台必须把权限隔离、审计追踪、风控校验等能力系统化，从而形成可复制的合规框架。更值得关注的是，谷歌并未将“代操作”停留在GUI层。就在相关产品发布前后，谷歌推出新的应用能力接口体系AppFunctions，允许应用向系统声明可被调用的功能模块，例如“搜索餐厅”“加入购物车”“提交订单”等。当用户发出任务指令时，智能体可优先通过接口直接触发能力，而非逐步模拟点击界面。这意味着行业正在从“看屏操作”向“能力调用”过渡：前者像临时替身，后者更接近系统级的流程编排。对策——以“可控、可审计、可中断”建立信任底座在智能体深入终端与应用的背景下，平台、厂商与应用开发者需协同建立更清晰的规则体系。一是强化权限最小化原则。对涉及支付、账号、隐私信息的关键步骤坚持“用户最终确认”，并通过分级授权、一次性授权等方式降低长期风险。二是完善隔离机制与审计机制。通过沙盒执行、日志留存、风险提示与异常回滚等手段，使每一次自动化执行“可见、可追、可撤”。三是推动接口标准化。鼓励应用以能力声明方式接入系统调度，减少对界面识别的依赖，降低因界面变化引发的失败率与误触率，并为监管与风控提供更明确的责任边界。四是加强生态治理与反滥用。对高频、批量、异常请求建立识别与限流机制，防止自动化能力被用于刷单、羊毛党或黑灰产链路。前景——从“助手”到“系统代理”，竞争将转向生态与规则展望未来，智能体在手机上的落地，或将经历“受限场景试点—接口化能力扩容—跨应用任务编排—系统级代理”的演进。短期内，出行、餐饮等低风险、高频场景仍将是主要试验田；中期看，随着AppFunctions等接口生态成熟，更多应用将以“可调用能力”而非“可见页面”参与智能体协作；长期看，终端操作范式可能从“应用中心”走向“任务中心”，用户关注点将从打开哪一个App转向“把事情办成”。不过，智能体越强，越需要制度化约束。未来市场竞争不仅比拼模型能力，更比拼系统治理、开发者生态与用户信任建设。谁能在效率、成本、安全与合规之间建立稳定平衡，谁就更可能在新一轮终端变革中占据主动。

智能终端自动化技术的演进，本质上是技术创新与人的需求之间的持续磨合。当机器逐渐获得一定“操作权”，如何在效率提升与用户掌控之间取得平衡，将成为检验技术成熟度的重要尺度。这场围绕“控制与信任”的产业探索，不仅影响商业竞争格局，也将深入界定数字化时代的人机关系边界。