Anthropic发布AI流利度报告
创始人
2026-02-24 17:19:55

AIPress.com.cn报道

Anthropic 发布了一份基于 2026 年数据的教育报告,分析了近万次对话,揭示了人们使用 Claude 的真实水平。

为了量化"AI熟练度",研究团队使用了一套包含24种行为指标的框架,其中11种可以直接从对话中观察到。团队分析了2026年1月一周内Claude.ai上的9830段多轮对话,逐一判断这些行为是否出现,最终形成了一个AI熟练度基准指数。

核心发现一:多聊几轮的人,水平远超一问一答的人

85.7%的对话表现出了"迭代和优化"的特征,也就是用户不会拿到第一个回答就结束,而是继续追问和调整。这些对话平均比一问一答的对话多展现2.67种熟练度行为,大约是后者的两倍。差距在评估环节尤其明显:有迭代的对话中,用户质疑AI推理的概率是无迭代对话的5.6倍,发现信息遗漏的概率是4倍。

简单说,愿意跟AI多聊几轮的人,才是真正在和AI协作,而不是把它当搜索引擎用。

核心发现二:AI产出越精致,人越不愿挑毛病

12.3%的对话涉及代码、文档、交互工具等实际产出。在这类对话中,用户前期引导AI的积极性明显更高,比如主动明确目标、指定格式、提供示例。但到了审查环节,表现反而更差:识别遗漏信息的概率低了5.2个百分点,核实事实低了3.7个百分点,质疑推理逻辑低了3.1个百分点。

可能的原因是AI产出看起来太完整了,用户觉得既然成品像模像样,就没必要再深究。但问题在于,越复杂的任务AI越容易出错,而这些任务的产出往往看起来最专业。

研究团队基于数据给出了三条改进方向。第一,别拿到第一个答案就走,继续追问和调整。第二,越是看着完美的输出越要多审视,停下来问一句"这个真的对吗"。第三,在对话开头就设定协作规则,数据显示只有30%的用户会这么做,比如告诉AI"如果我的假设有问题请直接指出来"或者"先带我走一遍你的推理过程"。

团队也坦承了几个局限:样本偏向早期采用者,只有一周数据,只覆盖Claude.ai平台,24种行为只评估了11种可观察的,而且行为分类比较粗糙。用户可能在脑子里做了很多评估但没在对话中表达出来,这一点在有实际产出的场景中尤其明显。

未来Anthropic计划做新老用户对比分析,用定性方法评估对话外的行为,并探索因果关系,比如鼓励多轮迭代是否真的能提升批判性思维。

(AI普瑞斯编译)

相关内容

热门资讯

冠豪门窗在断桥铝门窗行业专业吗 在断桥铝门窗行业,冠豪门窗的专业性体现在其对产品性能的追求与技术标准的严格把控。作为佛山市贝鲁门窗有...
哪些 佛山家装门窗选品参考 随着家装消费需求不断升级,居住品质相关的部品选型逐渐成为消费者关注的重点,佛山作为国内门窗产业核心集...
长春木塑铝窗厂家 家装门窗选购... 长春严寒气候下的门窗选购核心需求 长春属于温带大陆性季风气候,冬季漫长严寒,最低气温可达零下三十摄氏...
哪些楼梯设计厂家适配多元空间垂... 楼梯设计厂家行业发展背景 根据公开数据资料显示,2024年我国家装及公装领域的定制楼梯需求同比增长1...
怎么选钢化玻璃夹胶楼梯 不同户... 不同空间的楼梯适用类型 在住宅与商业空间的装修中,楼梯作为垂直动线的核心载体,适配性是选择时的首要参...