Anthropic发布AI流利度报告_科普教育

创始人

2026-02-24 17:19:55

AIPress.com.cn报道

Anthropic 发布了一份基于 2026 年数据的教育报告，分析了近万次对话，揭示了人们使用 Claude 的真实水平。

为了量化"AI熟练度"，研究团队使用了一套包含24种行为指标的框架，其中11种可以直接从对话中观察到。团队分析了2026年1月一周内Claude.ai上的9830段多轮对话，逐一判断这些行为是否出现，最终形成了一个AI熟练度基准指数。

核心发现一：多聊几轮的人，水平远超一问一答的人

85.7%的对话表现出了"迭代和优化"的特征，也就是用户不会拿到第一个回答就结束，而是继续追问和调整。这些对话平均比一问一答的对话多展现2.67种熟练度行为，大约是后者的两倍。差距在评估环节尤其明显：有迭代的对话中，用户质疑AI推理的概率是无迭代对话的5.6倍，发现信息遗漏的概率是4倍。

简单说，愿意跟AI多聊几轮的人，才是真正在和AI协作，而不是把它当搜索引擎用。

核心发现二：AI产出越精致，人越不愿挑毛病

12.3%的对话涉及代码、文档、交互工具等实际产出。在这类对话中，用户前期引导AI的积极性明显更高，比如主动明确目标、指定格式、提供示例。但到了审查环节，表现反而更差：识别遗漏信息的概率低了5.2个百分点，核实事实低了3.7个百分点，质疑推理逻辑低了3.1个百分点。

可能的原因是AI产出看起来太完整了，用户觉得既然成品像模像样，就没必要再深究。但问题在于，越复杂的任务AI越容易出错，而这些任务的产出往往看起来最专业。

研究团队基于数据给出了三条改进方向。第一，别拿到第一个答案就走，继续追问和调整。第二，越是看着完美的输出越要多审视，停下来问一句"这个真的对吗"。第三，在对话开头就设定协作规则，数据显示只有30%的用户会这么做，比如告诉AI"如果我的假设有问题请直接指出来"或者"先带我走一遍你的推理过程"。

团队也坦承了几个局限：样本偏向早期采用者，只有一周数据，只覆盖Claude.ai平台，24种行为只评估了11种可观察的，而且行为分类比较粗糙。用户可能在脑子里做了很多评估但没在对话中表达出来，这一点在有实际产出的场景中尤其明显。

未来Anthropic计划做新老用户对比分析，用定性方法评估对话外的行为，并探索因果关系，比如鼓励多轮迭代是否真的能提升批判性思维。

（AI普瑞斯编译）