数据分析

微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

2025-04-11 11:49:22 Pea 阅读:118
微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

当下,AI 领域可谓热火朝天,OpenAI、Anthropic 等一众顶尖实验室研发的模型,正大举进军编程界。谷歌那边,首席执行官桑达尔・皮查伊早在 10 月就透露,公司新代码里,有 25% 都是 AI 的 “杰作”;而 Meta 的掌舵人马克・扎克伯格,也满心盘算着在自家社交媒体帝国里,全面铺开 AI 编码模型,那野心昭然若揭。
可现实却给这些美好的憧憬泼了盆冷水。别看 AI 模型平时 “秀操作” 挺唬人,真到了软件调试的关键时刻,面对那些经验丰富的开发者轻松就能搞定的软件漏洞,它们却常常被 “卡脖子”,显得力不从心。
微软研究院 —— 微软的研发 “智囊团”,最近搞了一项研究,直接把 AI 模型在软件调试上的短板暴露无遗。在一个叫 SWE-bench Lite 的软件开发基准测试里,像 Anthropic 的 Claude 3.7 Sonnet,还有 OpenAI 的 o3-mini 这类模型,面对一系列软件问题,调试尝试纷纷 “翻车”。这结果就像一记重锤,狠狠敲醒了那些对 AI 盲目乐观的人:尽管 OpenAI 等公司把 AI 吹得神乎其神,但在编码这个专业领域,AI 和人类专家相比,还是差了一大截。
为了弄清楚 AI 模型在软件调试上到底啥水平,研究的几位共同作者找来九个不同的模型,把它们当作一个 “基于单一提示的智能体” 的核心部分。这个智能体还配备了 Python 调试器等一堆调试工具,看着挺 “豪华”。接着,研究人员从 SWE-bench Lite 里精挑细选了 300 个软件调试任务,丢给这个 “全副武装” 的智能体去解决。
结果让人挺失望。哪怕给智能体配上最新、最强的模型,它能成功完成一半以上调试任务的情况,也少得可怜。Claude 3.7 Sonnet 算是表现最好的,平均成功率也就 48.4%;OpenAI 的 o1 排第二,成功率 30.2%;o3-mini 更惨,只有 22.1%
为啥 AI 模型在调试软件时这么不给力呢?一方面,有些模型连现成的调试工具都用不明白,根本搞不清不同工具该在啥时候派上用场。但研究人员觉得,更大的问题出在数据上。他们猜测,现在模型训练用的数据里,能反映 “顺序决策过程”(说白了,就是人类调试软件时的思路和步骤)的数据严重不足。
研究的共同作者在报告里写道:“我们心里清楚,要是对模型进行训练或者微调,肯定能让它们在交互式调试上表现好点。但这可不是嘴上说说就行,得有专门的数据来配合训练,比如说,得有那种能记录智能体和调试器互动过程的数据,这样智能体才能在给出修复漏洞方案前,收集到有用信息。”
其实,AI 模型在代码生成方面有缺陷,也不是啥新鲜事了。之前就有好多研究发现,因为在理解编程逻辑这些关键地方有短板,AI 生成的代码经常藏着安全漏洞,错误也不少。就拿一款挺火的 AI 编码工具 Devin 来说,最近有人对它做了评估,20 个编程测试,它吭哧吭哧半天,也就勉强通过了 3 个。
不过,微软这次的研究,算是把模型在软件调试这块的老问题,掰开了、揉碎了给大家看。虽说这不一定能让那些对 AI 辅助编码工具狂热的投资者冷静下来,但好歹能给开发者和他们的领导提个醒:真要让 AI 在编码工作里 “挑大梁”,可得三思而后行。
有意思的是,现在越来越多科技圈的大佬,都站出来反对 “AI 会抢走程序员饭碗” 这个说法。微软联合创始人比尔・盖茨就直言,编程这行,往后还得靠人;Replit 的首席执行官阿姆贾德・马萨德、Okta 的首席执行官托德・麦金农,还有 IBM 的首席执行官阿尔温德・克里希纳,也都持相同观点。看来,在软件编程这场大戏里,人类程序员的 “主角光环”,一时半会儿还摘不掉。

相关文章

抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?
数据分析

抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?

2025-09-12 11:21:30 阅读:22
AI 智能体成消费新宠,超三分之一国人用它探索世界
数据分析

AI 智能体成消费新宠,超三分之一国人用它探索世界

2025-09-11 10:42:48 阅读:25
抢占 “全天候在线” 用户的注意力,品牌如何突出重围?
数据分析

抢占 “全天候在线” 用户的注意力,品牌如何突出重围?

2025-09-10 11:21:31 阅读:37
百度 百度热点
抖音热榜 抖音热榜
新浪微博 新浪微博
今日头条 今日头条
腾讯新闻 腾讯新闻
知乎热搜 知乎热搜
36氪 36氪
雪球网 雪球网

最新帖子

节省90%时间的网站搭建方案:网站克隆工具详解
产品运营

节省90%时间的网站搭建方案:网站克隆工具详解

2025-09-12 11:57:50 阅读:24
出海品牌别栽在 “翻译” 上:一个词错译,可能丢了亿级全球市场
用户研究

出海品牌别栽在 “翻译” 上:一个词错译,可能丢了亿级全球市场

2025-09-12 11:40:17 阅读:23
抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?
数据分析

抖音 “银发浪潮”:中老年用户活跃度反超年轻人,背后藏着怎样的数字生活革命?

2025-09-12 11:21:30 阅读:22
399元买“豪门闺蜜圈”?向太直播卖课背后的生意经
产品运营

399元买“豪门闺蜜圈”?向太直播卖课背后的生意经

2025-09-11 20:41:05 阅读:27
小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场
业界动态

小米“太子”王腾突遭辞退:从荣耀巅峰到黯然离场

2025-09-11 18:29:57 阅读:27
数字未来三大核心:生成式 AI 重构消费、平台韧性扛住风险、专业投资赢得先机
用户研究

数字未来三大核心:生成式 AI 重构消费、平台韧性扛住风险、专业投资赢得先机

2025-09-11 10:44:41 阅读:21