大模型转行土木工程,首个「打灰人」评估基准:检验读、改工程图纸能力
moboyou 2025-08-11 01:22 3 浏览
首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。
在AI竞速的今天,大语言模型(LLM)早已不满足只在象牙塔里「背书解题」。
当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后,LLM必须直面一个更现实的问题:
这些号称「专家级」的大模型,能不能真的下工地?能不能帮工程打工人减负?在钢筋水泥的图纸世界里,它们是得力助手,还是纸上谈兵?
答案尚未揭晓,但DrafterBench迈出了评估的第一步。
来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校(UCSB)合作,正式推出面向工程自动化任务的大模型评估基准——DrafterBench。
这是首个针对「一线工程图纸修改任务」设计的大规模评测套件,旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。
论文链接:
https://arxiv.org/abs/2507.11527代码链接:
https://github.com/Eason-Li-AIS/DrafterBench数据链接:
https://huggingface.co/datasets/Eason666/DrafterBench
为什么需要DrafterBench?
工程图纸修改,是土木工程、建筑设计等领域最耗时间、最高频的任务之一,也是自动化改造迫切程度极高的一环。
每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。
这类工作往往工作量大、标准高、容错低,但技术门槛不高,对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。
于是研究团队提出问题:
如果大模型能读懂图纸指令,调用工具链,精确修改图元,它就不只是「写PPT的高手」,更是「工程打工人福音」。
DrafterBench怎么做的?
DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个高质量任务,涵盖12类指令类型,模拟了各种难度、不同风格的真实工程命令。
DrafterBench不仅让模型「按部就班」,而是全面考察以下四大任务能力维度。
结构化数据理解能力:模型是否能从不同风格语句中准确提取出关键细节;
工具调用能力:模型能否组合多个工具形成有效的操作链,并正确调用顺序与参数;
指令跟随能力:面对一条包含多个修改目标的长指令,是否能做到任务不漏项、执行不断链;
批判性推理能力:模型能否识别指令中的信息缺失、不合理内容,并尝试补全模糊的细节、完成修正。
这不是纸面作文,是工程实战。
DrafterBench如何评估模型?
在DrafterBench中,模型要以「代码调用工具」的方式完成任务。
这些工具涵盖图元编辑、标注调整、绘图逻辑等,彼此之间还有输入输出依赖,形成一个「工程任务链」。
但问题来了:
工具调用是否正确?是否合理组合?
中间步骤是否成功传递?是否使用了冗余或错误命令?
直接看图纸输出无法判断。因此DrafterBench设计了一整套对偶工具系统(Dual function system)。
所有工具都有一份「替身」,不实际修改图纸,但记录调用顺序、参数值、变量状态,并以结构化JSON形式输出,清晰还原模型「行动路径」。
DrafterBench不只看模型有没有答对,而是看它「为什么答错,哪一步出错,错在哪里」。
模型表现如何? 喜忧参半!
DrafterBench评测了主流SOTA大语言模型,分别为:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。
综合来看,这些模型表现都达到一定水准,得分普遍超过65分。
其中,OpenAI o1以79.9的综合分领跑,Claude3.5 Sonnet和Deepseek-V3-685B表现也非常接近,分别为73.79和73.09。
这说明当前主流大模型具备一定的工程任务处理能力,尤其在简单指令执行上表现稳定。
但与此同时,模型整体水平仍远未达到工业一线对执行精度、流程完整性的实际要求。
更重要的是,不同模型在四大能力维度上呈现出显著差异。
比如,在结构化数据理解任务中,模型整体表现稳定,对语言风格的鲁棒性较强。
但在工具调用方面,准确率波动明显,平均可达9个百分点。对于指令跟随能力,部分模型表现出较强的任务承载能力,如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好,能保持基本的任务完整性。
而在批判性推理任务中,模型间能力分化尤为显著。
OpenAI o1在识别指令中信息缺失、筛选关键信息方面表现突出,而Qwen2.5则在细节补充上更具优势。
其余模型则在这两个维度中存在大幅度波动,表现不一。
研究团队进一步使用自动化错误分析工具,对每一个任务的失败原因进行结构化溯源。
结果表明,模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。
更关键的是,即便多个步骤执行正确,只要某一关键环节出现偏差,就会导致最终图纸修改失败。
这也解释了为何多数模型的单项能力准确率维持在60%左右,但整体目标修改完成度却显著偏低,仅在40%左右。
结论与展望
这些评估结果说明,尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具,但它们仍难以稳健掌握完整任务链的所有细节,对实际场景的适应能力尚不足以支撑工程一线需求。
如果说过去的大模型评测多数还停留在「会不会」,那么DrafterBench的贡献在于首次让模型接受了「干不干得好」的落地考核。
工程现场需要的是高容错、强判断、懂规则、能执行的助手,而DrafterBench正是在为这一目标提供数据支持与路径验证。
接下来,研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景,持续拓展模型能力边界。
你有模型,DrafterBench有任务。
看看你的模型,能不能真在图纸上动真格。
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
相关推荐
- Util应用框架基础(二)- 面向切面编程(AOP)
-
面向切面编程(AOP)Util应用框架横切关注点处理本节介绍Util应用框架对横切关注点的处理.文章分为多个小节,如果对设计原理不感兴趣,只需阅读基础用法部分即可.概述有些问题需要在系统中全局处理,比...
- QQ假红包生成器(恶搞qq红包假红包生成)
-
软件名称:QQ假红包生成器软件大小:892.37KB运行平台:安卓软件说明:本软件由iapp编写,所以全被安全软件误报。作者也把软件免杀了,但免杀版无法在5.0系统的手机上安装,安装非免杀版即可...
- 如何用云虚拟主机搭建一个影视网站
-
大家好,今天教大家使用云虚拟主机搭建一个影视网站的教程,本教程使用的是苹果CMS系统搭建。清空虚拟主机在开始安装网站之前,先要清空下虚拟主机。因为虚拟主机开通成功后,一般都会有一个默认网页文件,直接...
- 小白快速掌握!目前最有效玩客云刷机法之玩客云刷魔改版iStoreOS
-
本内容来源于@什么值得买APP,观点仅代表作者本人|作者:最佳男煮角来来咯,我又来咯,为方便小白快速掌握刷机流程,我在每一篇文章里都是尽可能一步一图一解读的,而最最基础的准备直接点击我的文章《什么,...
- AI七个月突破数学家“围剿”反超人类,14位数学家深挖原始推理token:不靠死记硬背靠直觉
-
从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间?现在,令数学家们都惊讶的结果已经尘埃落定:7个月。发生在大名鼎鼎的“专为为难大模型而生的”Fron...
- 1.5B刷新数学代码SOTA!快手清华精细Token管理,LLM推理能力飙升
-
Archer团队投稿量子位|公众号QbitAI当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——他们用1.5B参数的小模型,在多个推理基准上干过了同量级S...
- 抢票软件刷走200张,黄牛代码篡改系统,看球还敢信“代抢”吗?
-
7月4日晚无锡警方抓了两个人,他们用电脑程序抢了200多张苏超比赛门票,赚了1万5。现在苏超比赛场场爆满,抢票软件、黄牛倒票成了大问题。网上有人晒高价票,有人说自己被“代抢”骗了钱。黄牛倒票分三类:有...
- 大模型转行土木工程,首个「打灰人」评估基准:检验读、改工程图纸能力
-
首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结...
- 仅用一行代码实现全网站暗黑模式(仅用一行代码实现全网站暗黑模式怎么办)
-
开源项目推荐:uViewPro正式开源!70+Vue3组件重构完成,uni-app组件库新选择推荐文章:element-plus同款主题换肤动画如何实现?-附完整源码经历了PMP和软...
- “少写一行代码,5分钟狂刷一次下载,开发者8000美元就这么烧没了!”
-
只因为漏写了一行代码,macOS录屏工具ScreenStudio的开发者AdamPietrasiak意外烧掉了8000美元的流量费,连带着还让部分用户断了网。一个看起来微不足道的自动...
- IE法提取网页数据(如何提取网页中的表格)
-
【分享成果,随喜正能量】我们不良的行为、不善的念头、不好的言语,都属于我们内心的暴力,要想获得平和,我们需要自我修习,学会控制情绪,学会内观反省并接近善良。。《VBA信息获取与处理》教程是我推出第六套...
- 从abc起步学做网站(4)(abc是哪几个网站)
-
上一次我们做了一个大多数网站使用的模板,带有顶部、左侧导航、右侧主内容、底部等板块。现在我们把它逐步扩展成一个论坛。一个论坛的基本功能有注册,登陆,发帖,回帖,看帖,删帖等,我们一步步来做。首先大多数...
- 黑客命令第16集:47种最常见的**网站方法2/2
-
31.工具1:网站猎手2:大马一个关键字:切勿关闭Cookies功能,否则您将不能登录插入diy.asp32.关键字:Team5StudioAllrightsreserved默认数据库:dat...
- 安卓最有名的网页编辑器(安卓网页设计工具)
-
安卓平台上有几款较为知名的网页编辑器,如Quoda、DroidEdit等,它们凭借丰富的功能和良好的用户体验受到广泛关注,以下是具体介绍:-Quoda:是一款强大的免费多语言代码编辑器,支持HTM...
- 918国际导航免费分享一款简洁模板+整站程序+数据打包-yungui
-
918国际导航免费分享一款简洁模板+整站程序+数据打包国际导航模板说明:搜索栏背景是动态型的,为了简洁本站没有搜索框以及文章页,只有首页一个,这样可以满足大部分人的需求了,毕竟大家只是大家导航而已...
- 一周热门
- 最近发表
-
- Util应用框架基础(二)- 面向切面编程(AOP)
- QQ假红包生成器(恶搞qq红包假红包生成)
- 如何用云虚拟主机搭建一个影视网站
- 小白快速掌握!目前最有效玩客云刷机法之玩客云刷魔改版iStoreOS
- AI七个月突破数学家“围剿”反超人类,14位数学家深挖原始推理token:不靠死记硬背靠直觉
- 1.5B刷新数学代码SOTA!快手清华精细Token管理,LLM推理能力飙升
- 抢票软件刷走200张,黄牛代码篡改系统,看球还敢信“代抢”吗?
- 大模型转行土木工程,首个「打灰人」评估基准:检验读、改工程图纸能力
- 仅用一行代码实现全网站暗黑模式(仅用一行代码实现全网站暗黑模式怎么办)
- “少写一行代码,5分钟狂刷一次下载,开发者8000美元就这么烧没了!”
- 标签列表
-
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- css class选择器用法 (25)
- css样式引入 (30)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- php小说爬取源码 (23)
- 云电脑app源码 (22)
- html画折线图 (24)
- docker好玩的应用 (28)
- linux有没有pe工具 (34)
- mysql数据库源码 (21)
- php开源万能表单系统源码 (21)