问题——大模型应用加速普及的同时,长期依赖云端算力的模式也逐渐显现出成本、网络稳定性和数据安全等限制。对需要长期运行助手、处理敏感信息或弱网环境部署的用户来说,把能力放到本地成为更现实的需求。但本地运行大模型往往会遇到部署繁琐、硬件门槛高以及性能取舍等问题。 原因——一上,生成式模型推理对内存带宽、显存容量和软件栈适配要求高,普通个人电脑很难保证速度的同时兼顾长上下文和多任务并发;另一上,开发者对“可复用的智能体框架”的需求上升,希望在统一工具链里快速搭建、调试并验证多智能体协作流程。基于此,AMD提出“Agent Computer”设想,主张将部分智能体能力从远程数据中心迁回用户端设备,让数据与计算尽可能留在本地。 影响——AMD此次发布的OpenClaw框架,试图给出一条相对标准化的本地搭建路径:在Windows环境下通过WSL2运行,调用LM Studio与llama.cpp后端完成本地推理,同时引入名为Memory.md的嵌入式记忆机制,把上下文与状态存储在本机,减少对云端同步的依赖。以开源模型为例,系统可在本地运行包括Qwen 3.5 35B A3B在内的模型,为多智能体工作流提供基础能力。业内人士认为,这传递出清晰信号:端侧与本地化将与云端能力形成互补,隐私与自治会成为影响开发路线的重要因素。 对策——在硬件侧,AMD给出两条可对照、可权衡的参考路线。其一为RyzenClaw方案,基于Ryzen AI Max处理器与128GB统一内存,并建议将约96GB设置为可变显存以提升大模型推理效率。官方数据显示,在该配置下目标模型生成速度约每秒45个token,处理1万token输入约19.5秒,并可支持约26万token上下文窗口,最多同时运行6个本地智能体,更偏向需要更深上下文与更高并发的实验和开发场景。其二为RadeonClaw方案,将算力重点转向工作站级独立显卡Radeon AI PRO R9700(32GB专用显存)。在同一模型下,生成速度可提升至每秒约120个token,1万token输入处理时间约4.4秒,但最大上下文窗口约19万token,并发智能体数量降至2个,更适合对吞吐和响应速度敏感的任务。两套方案的差异也表明,本地智能体部署仍需要在速度、容量与并发之间做工程取舍。 前景——从市场定位看,上述方案并非面向大众的入门级选择。以RyzenClaw为例,基于Ryzen AI Max 395且配备128GB内存的台式机起步价格约2700美元;若采用RadeonClaw路线,还需叠加独立显卡成本,单卡建议零售价约1299美元。AMD也将主要目标用户指向工程师与早期采用者。展望未来,随着端侧算力提升、内存与显存成本变化,以及软件工具链深入成熟,本地运行大模型及智能体有望从“高配验证”逐步走向更广泛的行业工作流,在政务、企业知识库、个人生产力与工业现场等对数据可控要求更高的场景中带来新增应用空间。,生态能否形成统一接口、跨平台适配,以及可持续的应用分发机制,将决定本地智能体能否从技术展示走向规模化落地。
AMD的本地AI方案表明了产业技术路线正在发生的变化。在云端AI服务成为主流的背景下,重新强调本地化、隐私保护和用户自主性,反映了对成本、风险与可持续发展的再平衡。尽管当前成本限制了受众范围,但此路径已经开始成形。随着硬件价格下探、工具链成熟度提升,本地AI智能体有望从专业人群逐步扩展到更多应用场景,并在未来重塑AI计算的分工与形态。