Anthropic发布AI流利度报告
创始人
2026-02-24 17:19:55

AIPress.com.cn报道

Anthropic 发布了一份基于 2026 年数据的教育报告,分析了近万次对话,揭示了人们使用 Claude 的真实水平。

为了量化"AI熟练度",研究团队使用了一套包含24种行为指标的框架,其中11种可以直接从对话中观察到。团队分析了2026年1月一周内Claude.ai上的9830段多轮对话,逐一判断这些行为是否出现,最终形成了一个AI熟练度基准指数。

核心发现一:多聊几轮的人,水平远超一问一答的人

85.7%的对话表现出了"迭代和优化"的特征,也就是用户不会拿到第一个回答就结束,而是继续追问和调整。这些对话平均比一问一答的对话多展现2.67种熟练度行为,大约是后者的两倍。差距在评估环节尤其明显:有迭代的对话中,用户质疑AI推理的概率是无迭代对话的5.6倍,发现信息遗漏的概率是4倍。

简单说,愿意跟AI多聊几轮的人,才是真正在和AI协作,而不是把它当搜索引擎用。

核心发现二:AI产出越精致,人越不愿挑毛病

12.3%的对话涉及代码、文档、交互工具等实际产出。在这类对话中,用户前期引导AI的积极性明显更高,比如主动明确目标、指定格式、提供示例。但到了审查环节,表现反而更差:识别遗漏信息的概率低了5.2个百分点,核实事实低了3.7个百分点,质疑推理逻辑低了3.1个百分点。

可能的原因是AI产出看起来太完整了,用户觉得既然成品像模像样,就没必要再深究。但问题在于,越复杂的任务AI越容易出错,而这些任务的产出往往看起来最专业。

研究团队基于数据给出了三条改进方向。第一,别拿到第一个答案就走,继续追问和调整。第二,越是看着完美的输出越要多审视,停下来问一句"这个真的对吗"。第三,在对话开头就设定协作规则,数据显示只有30%的用户会这么做,比如告诉AI"如果我的假设有问题请直接指出来"或者"先带我走一遍你的推理过程"。

团队也坦承了几个局限:样本偏向早期采用者,只有一周数据,只覆盖Claude.ai平台,24种行为只评估了11种可观察的,而且行为分类比较粗糙。用户可能在脑子里做了很多评估但没在对话中表达出来,这一点在有实际产出的场景中尤其明显。

未来Anthropic计划做新老用户对比分析,用定性方法评估对话外的行为,并探索因果关系,比如鼓励多轮迭代是否真的能提升批判性思维。

(AI普瑞斯编译)

相关内容

热门资讯

家装电线阻燃等级科普安全选材守... 家装电线中阻燃等级这一指标,直接关联到电路系统在异常高温下的行为模式。当电流过载或短路产生局部高温时...
农村自建房,楼梯一定要留有余地 农村盖房,楼梯也要留余地#自建房 #楼梯 #图纸设计 #别墅设计 #自建房设计 #农村别墅 #装修 ...
浙江潇丹新材料科技申请PVC基... 国家知识产权局信息显示,浙江潇丹新材料科技有限公司申请一项名为“一种PVC基材破碎装置”的专利,公开...
长安粘胶取得浸渍重组木材用酚醛... 国家知识产权局信息显示,广州市长安粘胶制造有限公司取得一项名为“一种浸渍重组木材用酚醛树脂及其制备方...