7月17日,OpenAI正式推出ChatGPT Agent,正式进入通用AI Agent领域。业界普遍认为,在GPT-5即将问世的关键时刻,ChatGPT Agent的发布更像是一场战略性的“占位战”,预示着通用Agent有望成为未来互联网的“万亿流量入口”,市场格局或将迎来新一轮洗牌。
当前,通用AI Agent领域已有多家创新企业崭露头角,技术路线各异,涵盖了从基于浏览器的通用方案,到沙盒虚拟机的高效执行,再到工作流集成的专业化服务,四大技术派系正展开激烈竞争。
本文邀请硅谷101及Pokee.ai创始人、前Meta AI强化学习团队负责人朱哲清(Bill Zhu)和硅谷101特约研究员Nathan Wang,共同探讨:OpenAI入局是否意味着Agent市场将被巨头吞并?技术壁垒和差异化策略能否为创业公司留存空间?未来互联网访问由“幽灵光标”主导,广告生态将如何重塑?新一代流量入口的主导权又将花落谁家?
7月17日,OpenAI CEO Sam Altman联同四位研究人员直播介绍了ChatGPT Agent。
简言之,用户可让Agent帮忙完成多样任务:例如婚礼缺鞋可直接电商下单,设计宠物周边直接提交打印,搜索信息并自动生成PPT等。
这些演示内容展示了较高的完成度,背后依托的是OpenAI此前发布的Deep Research和Operator两款工具。
Deep Research专注深度调研,能浏览大量网页形成详尽报告,侧重“搜索”;Operator曾只对GPT Pro开放,是一个浏览器Agent,支持网页浏览及操作,主打“执行”。
OpenAI发现,许多用户用Operator时的操作需求与Deep Research的调研任务高度重合,比如规划旅行行程、预订等;反之,Deep Research用户也希望具备访问登录受限网站的能力,这正是Operator的强项。
因此,OpenAI将两者融合,实现“搜索+执行”的整合,成为通用Agent的关键技能组合。
这也意味着OpenAI通用AI的底层技术路线与其他产品有所不同,既具备优势,也存在一定限制。
接下来,我们将解析当前通用Agent的四大技术路线。
首个技术派系是基于“浏览器”的方案,OpenAI的Operator即走此路。
这类Agent通过控制浏览器模拟人类上网操作:搜索、点击、浏览网页,完成各类任务。
优点是能够访问互联网海量信息,功能几乎无限制。
朱哲清指出:
浏览器的关键意义在于它能统一呈现所有网页和互联网服务。只要Agent能操作网页,就能完成用户需求。用户还能看到Agent实际点击页面,验证操作过程。
缺点则是速度缓慢,且Token消耗极高。原因是加载网页时,Agent需完整下载HTML及脚本文件,解析耗时长。
这种视觉模型配合屏幕截图的方式天生慢,任务执行需等待页面加载,导致许多操作需时数十分钟。
不过,未来随着大模型和算力提升,响应速度有望改善。OpenAI的视觉识别与浏览器控制技术领先于市场,优化潜力巨大。
“沙盒虚拟机”技术常被提及,指的是一个受控隔离环境,允许AI安全地运行程序。
想象孩子玩泥巴时有一个专门的玩耍区域,既安全又不会弄脏其他地方。
在AI Agent应用中,沙盒是虚拟机环境,程序在其中运行,不影响主机安全。
Agent能在虚拟电脑上打开浏览器、运行脚本、处理文件,完成任务全过程。
硅谷101研究员Nathan Wang解释:
虚拟机类似一个基于Linux的命令行环境,可以生成和管理文件,利用大模型的编程能力,根据需求写代码并输出用户易理解的内容。
朱哲清补充:
虚拟机优点是可运行各种开源程序包,缺点是网络访问受限,尤其是需要授权登录的服务,如Facebook无法使用。
Manus是虚拟机派中表现出色的代表,今年4月融资7500万美元,估值接近5亿美元。
它融合浏览器和沙盒技术,试图构建一个几乎万能的环境。
缺陷是浏览器能力限制,难以完成复杂页面交互(如上传图片、操作表格格式等),且速度较慢,任务执行常需30分钟以上。
总体上,Manus在虚拟机架构和浏览器集成上优于ChatGPT Agent,但两者都存在响应迟缓的问题。
第三种技术路线是将大型语言模型与一个封闭的沙盒环境结合,限定工具集完成任务。
相较于给AI完整电脑环境,提供有限但有效的工具箱和小型运行空间。
朱哲清指出:
GensPark是此类代表,没有完整沙盒甚至不支持浏览器。它依赖大模型进行推理和代码生成,在受控环境中运行预设工具,限制下载新程序包。
GensPark整合多种规模模型,及80多个经过测试的内置工具,依据任务智能调用合适模型及API,实现快速稳定的结果输出。
Nathan Wang表示:
GensPark支持多第三方API,如访问LinkedIn、GitHub并执行操作,能无缝集成Google办公套件,针对具体场景细化工作流,保证执行可靠。
总结来看,LLM+沙盒技术以牺牲通用性换取更高速度和稳定性,适合特定任务场景。
第四条路线是结合预设流程和第三方工具,由AI调度执行。
朱哲清创办的Pokee即采用此方案,技术核心是“工作流+工具集成”。
可比作搭积木,开发者先设计完成任务的节点流程,每步调用对应应用或API。
AI理解用户请求,自动选用合适流程执行,或用自然语言辅助填充参数。
例如Zapier平台允许自动化邮件处理:收到表单后自动生成摘要并发邮件,AI只负责理解和撰写。
Pokee强调强化学习自动规划工具调用,速度远超其它产品,交付体验优良,但通用性受限于预设流程。
朱哲清表示:
我们的Agent速度是市场平均4到10倍,不依赖虚拟机和复杂调用机制,避免冗长上下文,降低工具调用成本60%左右。自主研发上下文工程技术带来显着成本优势。
虽不如浏览器派通用,但保证每个服务的稳定交付,因直接使用第三方官方接口,减少错误。
四大技术流派与代表:
浏览器派:OpenAI ChatGPT Agent
虚拟机派:Manus
LLM+沙盒派:GensPark
工作流+工具集成派:Pokee、Zapier、UiPath
目前通用性与速度稳定性难兼得,ChatGPT Agent和Manus侧重通用,GensPark和Pokee更注重速度和稳定。
Nathan Wang指出:
起初大家都想做通用Agent,但实践发现“样样通不精通”。未来产品迭代重点是提升可靠性和场景专精,确保用户持续使用和付费。单靠惊艳演示无法长久留住用户,工作流与专精应用才是关键。
各技术路线虽不同,但提速与提升稳定性是共识。
未来将出现更多细分Agent,通用与专用产品并存,ToB和ToC市场将分化。
OpenAI入局,通用Agent大战才刚开始,但未来互联网访问主力将是Agent。
《Wired》曾报道,未来互联网将被“幽灵光标”主导,即大量由Agent代替人类完成网页交互和信息抓取,流量入口被根本改写。
朱哲清预测:
未来1-2年内,传统门户网站流量将快速下滑,电商、搜索、视频网站等均会被Agent流量取代。Google推出Agent2Agent协议就是为了抢占这个入口,谁先占据协议平台谁将成为赢家。
这将引发广告模式和信息分发的重大变革。
朱哲清举例:
未来,内容版权价值凸显。Agent访问内容时需向创作者付费,广告由Agent在用户体验中插入,形成新的排名和变现体系。内容创作者不再依赖传统广告流量,而是直接从Agent获益。
Sam Altman也表示:
AI Agent是一项令人兴奋但带来新风险的技术,社会需建立安全防护机制,用户需要适应新操作方式。OpenAI致力于稳健推进,并设置多重安全警示。
ChatGPT Agent发布当日,OpenAI透露其日均处理指令达25亿条,年化超过9000亿次,已占谷歌搜索量18%。随着Agent普及,流量大战才刚拉开序幕。