业界动态

OpenAI进军通用AI Agent赛道:四大技术路线及下一场万亿流量之争

2025-08-04 11:25:01 快照小生 阅读:97
OpenAI进军通用AI Agent赛道:四大技术路线及下一场万亿流量之争

7月17日,OpenAI正式推出ChatGPT Agent,正式进入通用AI Agent领域。业界普遍认为,在GPT-5即将问世的关键时刻,ChatGPT Agent的发布更像是一场战略性的“占位战”,预示着通用Agent有望成为未来互联网的“万亿流量入口”,市场格局或将迎来新一轮洗牌。

当前,通用AI Agent领域已有多家创新企业崭露头角,技术路线各异,涵盖了从基于浏览器的通用方案,到沙盒虚拟机的高效执行,再到工作流集成的专业化服务,四大技术派系正展开激烈竞争。

本文邀请硅谷101及Pokee.ai创始人、前Meta AI强化学习团队负责人朱哲清(Bill Zhu)和硅谷101特约研究员Nathan Wang,共同探讨:OpenAI入局是否意味着Agent市场将被巨头吞并?技术壁垒和差异化策略能否为创业公司留存空间?未来互联网访问由“幽灵光标”主导,广告生态将如何重塑?新一代流量入口的主导权又将花落谁家?

01 ChatGPT Agent正式亮相,通用Agent大战开启

7月17日,OpenAI CEO Sam Altman联同四位研究人员直播介绍了ChatGPT Agent。

简言之,用户可让Agent帮忙完成多样任务:例如婚礼缺鞋可直接电商下单,设计宠物周边直接提交打印,搜索信息并自动生成PPT等。

这些演示内容展示了较高的完成度,背后依托的是OpenAI此前发布的Deep Research和Operator两款工具。

Deep Research专注深度调研,能浏览大量网页形成详尽报告,侧重“搜索”;Operator曾只对GPT Pro开放,是一个浏览器Agent,支持网页浏览及操作,主打“执行”。

OpenAI发现,许多用户用Operator时的操作需求与Deep Research的调研任务高度重合,比如规划旅行行程、预订等;反之,Deep Research用户也希望具备访问登录受限网站的能力,这正是Operator的强项。

因此,OpenAI将两者融合,实现“搜索+执行”的整合,成为通用Agent的关键技能组合。

这也意味着OpenAI通用AI的底层技术路线与其他产品有所不同,既具备优势,也存在一定限制。

接下来,我们将解析当前通用Agent的四大技术路线。

02 浏览器驱动派(OpenAI):通用性强但响应慢

首个技术派系是基于“浏览器”的方案,OpenAI的Operator即走此路。

这类Agent通过控制浏览器模拟人类上网操作:搜索、点击、浏览网页,完成各类任务。

优点是能够访问互联网海量信息,功能几乎无限制。

朱哲清指出:
浏览器的关键意义在于它能统一呈现所有网页和互联网服务。只要Agent能操作网页,就能完成用户需求。用户还能看到Agent实际点击页面,验证操作过程。

缺点则是速度缓慢,且Token消耗极高。原因是加载网页时,Agent需完整下载HTML及脚本文件,解析耗时长。

这种视觉模型配合屏幕截图的方式天生慢,任务执行需等待页面加载,导致许多操作需时数十分钟。

不过,未来随着大模型和算力提升,响应速度有望改善。OpenAI的视觉识别与浏览器控制技术领先于市场,优化潜力巨大。

03 虚拟机+浏览器混合派(Manus):执行效率高但网络访问有限

“沙盒虚拟机”技术常被提及,指的是一个受控隔离环境,允许AI安全地运行程序。

想象孩子玩泥巴时有一个专门的玩耍区域,既安全又不会弄脏其他地方。

在AI Agent应用中,沙盒是虚拟机环境,程序在其中运行,不影响主机安全。

Agent能在虚拟电脑上打开浏览器、运行脚本、处理文件,完成任务全过程。

硅谷101研究员Nathan Wang解释:
虚拟机类似一个基于Linux的命令行环境,可以生成和管理文件,利用大模型的编程能力,根据需求写代码并输出用户易理解的内容。

朱哲清补充:
虚拟机优点是可运行各种开源程序包,缺点是网络访问受限,尤其是需要授权登录的服务,如Facebook无法使用。

Manus是虚拟机派中表现出色的代表,今年4月融资7500万美元,估值接近5亿美元。

它融合浏览器和沙盒技术,试图构建一个几乎万能的环境。

缺陷是浏览器能力限制,难以完成复杂页面交互(如上传图片、操作表格格式等),且速度较慢,任务执行常需30分钟以上。

总体上,Manus在虚拟机架构和浏览器集成上优于ChatGPT Agent,但两者都存在响应迟缓的问题。

04 大模型+沙盒派(GensPark):以速度与稳定换取通用性

第三种技术路线是将大型语言模型与一个封闭的沙盒环境结合,限定工具集完成任务。

相较于给AI完整电脑环境,提供有限但有效的工具箱和小型运行空间。

朱哲清指出:
GensPark是此类代表,没有完整沙盒甚至不支持浏览器。它依赖大模型进行推理和代码生成,在受控环境中运行预设工具,限制下载新程序包。

GensPark整合多种规模模型,及80多个经过测试的内置工具,依据任务智能调用合适模型及API,实现快速稳定的结果输出。

Nathan Wang表示:
GensPark支持多第三方API,如访问LinkedIn、GitHub并执行操作,能无缝集成Google办公套件,针对具体场景细化工作流,保证执行可靠。

总结来看,LLM+沙盒技术以牺牲通用性换取更高速度和稳定性,适合特定任务场景。

05 工作流+工具集成派(Pokee/UiPath):交付快但通用性有限

第四条路线是结合预设流程和第三方工具,由AI调度执行。

朱哲清创办的Pokee即采用此方案,技术核心是“工作流+工具集成”。

可比作搭积木,开发者先设计完成任务的节点流程,每步调用对应应用或API。

AI理解用户请求,自动选用合适流程执行,或用自然语言辅助填充参数。

例如Zapier平台允许自动化邮件处理:收到表单后自动生成摘要并发邮件,AI只负责理解和撰写。

Pokee强调强化学习自动规划工具调用,速度远超其它产品,交付体验优良,但通用性受限于预设流程。

朱哲清表示:
我们的Agent速度是市场平均4到10倍,不依赖虚拟机和复杂调用机制,避免冗长上下文,降低工具调用成本60%左右。自主研发上下文工程技术带来显着成本优势。

虽不如浏览器派通用,但保证每个服务的稳定交付,因直接使用第三方官方接口,减少错误。

06 技术流派总结与未来趋势

四大技术流派与代表:
浏览器派:OpenAI ChatGPT Agent
虚拟机派:Manus
LLM+沙盒派:GensPark
工作流+工具集成派:Pokee、Zapier、UiPath

目前通用性与速度稳定性难兼得,ChatGPT Agent和Manus侧重通用,GensPark和Pokee更注重速度和稳定。

Nathan Wang指出:
起初大家都想做通用Agent,但实践发现“样样通不精通”。未来产品迭代重点是提升可靠性和场景专精,确保用户持续使用和付费。单靠惊艳演示无法长久留住用户,工作流与专精应用才是关键。

07 Agent引发未来流量入口大战

各技术路线虽不同,但提速与提升稳定性是共识。

未来将出现更多细分Agent,通用与专用产品并存,ToB和ToC市场将分化。

OpenAI入局,通用Agent大战才刚开始,但未来互联网访问主力将是Agent。

《Wired》曾报道,未来互联网将被“幽灵光标”主导,即大量由Agent代替人类完成网页交互和信息抓取,流量入口被根本改写。

朱哲清预测:
未来1-2年内,传统门户网站流量将快速下滑,电商、搜索、视频网站等均会被Agent流量取代。Google推出Agent2Agent协议就是为了抢占这个入口,谁先占据协议平台谁将成为赢家。

这将引发广告模式和信息分发的重大变革。

朱哲清举例:
未来,内容版权价值凸显。Agent访问内容时需向创作者付费,广告由Agent在用户体验中插入,形成新的排名和变现体系。内容创作者不再依赖传统广告流量,而是直接从Agent获益。

Sam Altman也表示:
AI Agent是一项令人兴奋但带来新风险的技术,社会需建立安全防护机制,用户需要适应新操作方式。OpenAI致力于稳健推进,并设置多重安全警示。

ChatGPT Agent发布当日,OpenAI透露其日均处理指令达25亿条,年化超过9000亿次,已占谷歌搜索量18%。随着Agent普及,流量大战才刚拉开序幕。

相关文章

小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场
业界动态

小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场

2025-09-11 18:29:57 阅读:27
东方甄选扭亏为盈,自营业务成亮点,但挑战才刚开始
业界动态

东方甄选扭亏为盈,自营业务成亮点,但挑战才刚开始

2025-09-09 16:02:26 阅读:44
养了一个月AI宠物,我看清了这门“新生意”的真相
业界动态

养了一个月AI宠物,我看清了这门“新生意”的真相

2025-09-08 16:35:40 阅读:47
百度 百度热点
抖音热榜 抖音热榜
新浪微博 新浪微博
今日头条 今日头条
腾讯新闻 腾讯新闻
知乎热搜 知乎热搜
36氪 36氪
雪球网 雪球网

最新帖子

节省90%时间的网站搭建方案:网站克隆工具详解
产品运营

节省90%时间的网站搭建方案:网站克隆工具详解

2025-09-12 11:57:50 阅读:24
出海品牌别栽在 “翻译” 上:一个词错译,可能丢了亿级全球市场
用户研究

出海品牌别栽在 “翻译” 上:一个词错译,可能丢了亿级全球市场

2025-09-12 11:40:17 阅读:23
抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?
数据分析

抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?

2025-09-12 11:21:30 阅读:22
399元买“豪门闺蜜圈”?向太直播卖课背后的生意经
产品运营

399元买“豪门闺蜜圈”?向太直播卖课背后的生意经

2025-09-11 20:41:05 阅读:27
小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场
业界动态

小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场

2025-09-11 18:29:57 阅读:27
数字未来三大核心:生成式 AI 重构消费、平台韧性扛住风险、专业投资赢得先机
用户研究

数字未来三大核心:生成式 AI 重构消费、平台韧性扛住风险、专业投资赢得先机

2025-09-11 10:44:41 阅读:21