Agent 测评：新手友好的方法论

最近接触到的很多项目都在做 Agent，但是真正难的是 Agent 跑起来之后能不能稳定、可靠、安全的完成任务

和传统 LLM 更偏向答案结果的测评，Agent 不同的是它的权限和能力更大（调用工具、服务器、连接第三方服务），所以风险也从单纯的答案正确率扩大

所以这篇从多个维度来简单讲一下 Agent 的测评应该怎么做

Agent 测评最重要的三个对象

Agent 测评：新手友好的方法论配图 1

如果只测结果，可能看不见 Agent 的坏习惯；如果只测过程，又可能导致它找不到更好的解法；如果不测安全，它的权限越大，风险就越大，所以三个部分都比较重要

好的测试 Case 应该是什么样的

一个好的 Case 至少包含六个部分：

用户输入（用户会怎么真实表达需求)
初始环境（数据库、文件、工具返回值、页面状态)
成功标准（什么叫完成任务)、失败标准（什么情况必须判定为失败)
评分方式（确定性检查、LLM 裁判，还是人工复核)
风险点（是否涉及隐私、权限、资金、删除、外部发送)

评分器 Scorer 的设计

Agent 测评：新手友好的方法论配图 2

这种分层算目前 AI 的主要评分设计方式，像 OpenAI 的 Evals 和 Graders 文档也是类似思路，支持字符串检查、相似度评分、模型评分器、Python 代码评分器等方式

Btw 个人觉得很多情况下 LLM 作为裁判是必要的，很少数情况下可以只靠代码的确定性评分而不需要 LLM 介入

Agent 的回归测试

Agent 测评有两种很重要的类型：能力测评和回归测评

能力测评：这个 Agent 最难能做到什么？比如一个代码 Agent 能不能修复复杂 bug，一个研究 Agent 能不能完成多来源调研
回归测评：它以前能做好的事，现在还会不会做？每次改 Prompt、换模型、加工具，都可能让老功能退化

Agent 测评：新手友好的方法论配图 3

Agent 过程轨迹的测试方法

虽然 Agent 会调用工具，但不应该规定它必须按固定顺序调用工具

Anthropic 的建议是：不要过度限制 Agent 的创造性，很多时候 Agent 可能没有按你设想的路径走，但最后用更好的方式完成了任务，所以过程测评更倾向于关键约束

比如可以要求：必须使用政策查询结果作为依据、不能调用删除用户数据的工具、工具参数里的金额不能超过订单金额、总轮数不能超过 10 轮、Token 成本不能超过预算

除了这是审批、支付、合规审核这类强流程业务，不要轻易设置"第一步必须调 A、第二步必须调 B" 这种完全限制的规定

Agent 安全测评

Agent 会连接工具、数据库、浏览器、文件系统和第三方服务，一旦被恶意输入诱导,就可能执行错误操作

所以安全测评至少要包含五类：

Prompt 注入测试（网页、文档、工具返回值里夹带恶意指令）
越权测试（普通用户请求管理员操作）
隐私泄露测试（要求输出原始客户记录、密钥、内部数据）
高风险操作测试（删除、发送、支付、审批前是否要求确认）
工具滥用测试（是否调用不必要或危险的工具）

写在最后

这篇文章其实不算长，主要还是写一下测评的主要维度，在实际测评中肯定要进行细化的

另外还想说，没有必要为了做 Agent 而去做，做出来的 Agent 一定要有实际的使用场景才有意义，否则只是浪费时间和 Token

「怪诞手绘风」看完《瑞克和莫蒂》以及辛普森一家之后，想把日常照片也进行“丑化、恶搞”。于是乎... 结尾彩蛋，有胆你就试试这个版本关于作者 Punk ｜中科大 MBA｜被大厂优化，在 X 上重新进化｜HerName 首席设计师｜AI提示词｜分享小白能看懂、复制能上手的 AI / Web3 / 搞钱方法｜

TutorialsJun 13

2026年的十字路口下，关于出海的方向建议

我一直在做出海相关业务，时代变得很快，今天说点自己的判断。在原来，出海是一门特别简单的生意：在国内找个货，铺到亚马逊上，靠信息差和价格差就能赚钱。再聪明一点的，把货从越南、墨西哥转一圈，换个“身份”卖到欧美，赚关税差价。那时候的逻辑很粗暴：胆子大、铺得多、价格压得狠，就能赢。这些年，我眼睁睁看着这套打法一条条失灵。美国先把 800 美元以下小包裹的免税通道堵死，“9 块 9 包邮”直接没法玩了。接着对中国电动车加征 100% 关税

TutorialsJun 13

AI Digital Infrastructure

Giffgaff 英国手机卡新手完全指南（购买+激活+充值全流程）

本教程为用户提供 giffgaff 英国实体 SIM 卡的购买选择指南 + 激活使用完整教程，包含：激活、保号、充值、转 esim、收不到验证码、常见问题，旨在帮助用户从零开始掌握该卡的使用技巧。 ⚠️ 收到卡后必读（非常重要！） 🚨 插卡前必做三件事在插入 SIM 卡之前，务必先完成以下设置，否则可能产生意外费用： 1️⃣ 关闭数据漫游进入手机「设置」→「移动网络」→ 找到 giffgaff 卡关闭「数据漫游」开关

TutorialsJun 13

AI Codex

普通人 Codex 入门全景图：第一次打开它，先跑通一条工作流

如果你第一次打开 Codex，最容易卡住的地方，通常不是安装。是你不知道它到底该被放在工作流里的哪个位置。我现在更愿意把 Codex 理解成一个 AI 工作台：它可以围绕一个本地项目读文件、改文件、跑命令、看网页、接插件、记规则、做检查，还能把重复流程沉淀成 Skill 或自动化任务。这篇不是某一个功能教程。它更像一张新手地图。看完以后，你不一定马上精通 Codex 的每个按钮，但至少会知道：第一次打开应该先建什么。一个任

TutorialsJun 12

AI Digital Infrastructure

土豆哥一人公司手册·008（上）：独立站GEO实战：流量逻辑变了

一人公司为什么要有独立站？平台可以封号，App Store 可以下架，微信公众号可以被限流。只有独立站是你自己的地盘——用户数据在你手里，产品定价你说了算，不用给平台抽成，也不用看算法脸色。但独立站有一道坎，很多人迈不过去：流量。我见过太多一人公司，产品做得不错，独立站也建起来了，最后死在了流量上。不是不努力，是不知道该往哪使劲——SEO 做了半年没效果，广告烧钱烧不起，社交媒体发帖没人看。流量这个话题太大，一篇说不完。我把

TutorialsJun 12

AI Creator Tools

「重塑雕像的权利风」更像我对自己的评价：克制、秩序、先锋

这套黑白灰先锋海报，和之前偏“黑白杂志风”的方向不太一样。它不追求杂志封面的信息密度，也不靠栏目、编号、小字、排版标签制造设计感，而是更强调秩序、结构和视觉张力。核心是用黑白灰建立空间层次，用随机字体排版打破模板感，再用圆形、线条、矩形、网格、路径等几何母题组织画面。它看起来克制，但不呆板；极简，但不空洞；有先锋感，也有清晰的视觉系统。适合做 AI、设计、思想类主题封面，尤其适合那些想要“高级、冷静、有实验性”的内容。 Punk

TutorialsJun 11

AI Creator Tools

普通人怎么用AI进短视频赛道赚钱

一个账号，20条视频，全部用AI生产。最差的曝光十几万。最好的，300万。 20条，条条十万+。用AI把视频成本从500元压到5元， AI短视频工作流，我之前写过——两个30万粉账号，带出1.5亿GMV。但今天我想写的，不是他的账号数据。是我坐在他公司，亲眼看到的一件事。我问他：这套工作流，普通人能复制吗？他说：能。这篇文章，就是把这个答案写清楚。先说行业在发生什么就在这周，Snap宣布裁员1000人，关闭300多个岗位

TutorialsJun 11

AI Digital Infrastructure

开源一个输入法 PunkType，开源、免费、安全

先说个得罪人的大实话：在币圈，你用输入法，本质上就是裸奔；你要再用那些闭源的 AI 语音输入，那是把裤衩都脱了，连密码一起递过去 PS：全文将近 2400 字，建议你先收藏再慢慢阅读 😘 我自己是个重度语音输入用户，连这篇文章，都是我口述出来的。但折腾了一圈下来，市面上能用的东西，要么不安全，要么不好用，没一个让我真正放心。所以我干脆自己写了一个，今天把它开源—— PunkType GitHub 地址：本文大纲： ⌨️在币圈用第三方

TutorialsJun 11

Agent 测评：新手友好的方法论

最近接触到的很多项目都在做 Agent，但是真正难的是 Agent 跑起来之后能不能稳定、可靠、安全的完成任务

Agent 测评最重要的三个对象

好的测试 Case 应该是什么样的

评分器 Scorer 的设计

Agent 的回归测试

Agent 过程轨迹的测试方法

Agent 安全测评

写在最后

You May Also Like

CATALOG

Agent 测评最重要的三个对象

好的测试 Case 应该是什么样的

评分器 Scorer 的设计

Agent 的回归测试

Agent 过程轨迹的测试方法

Agent 安全测评

写在最后

You May Also Like

CATALOG

Related Posts