工具使用这件事,很多讨论停留在“能不能用”。但对真正做实验的人来说,更重要的问题是:模型为什么会调用成功,为什么会调用失败,以及文档形式、接口组织方式和工具暴露机制分别起了什么作用。

EasyTool 给了我一个很具体的切入点:如果把原始工具文档整理成更适合模型理解的 instruction,是否能稳定提升效果?而 MCP 又进一步提出另一个问题:当工具以更标准化的协议和运行方式暴露给模型时,行为会不会继续变化?

所以这项工作并不只是比较几个数字。我更关心的是,工具调用能力背后到底依赖什么结构,哪些是表达层面的改进,哪些是系统层面的改进。把这个问题讲清楚,才是我真正想验证的事情。