AI 大模型推理 > 最佳实践 > 为什么问模型"你是什么模型"不可靠

为什么问模型"你是什么模型"不可靠

最近更新时间: 2026-05-25 16:37:47

常见现象

这些并非个例，而是所有大语言模型的固有特性。

模型在海量文本数据上训练，但训练数据不包含模型自身的身份信息。模型的名称和版本号（如 “GPT-4o”、“Claude Sonnet 4”、“Gemini 3 Pro”）是在训练完成之后才由开发团队分配的。

"类比：想象向一个婴儿灌输人类全部知识多年，但从不告诉它自己的名字。当它学会说话后，能知道很多事，但不会知道自己叫什么。"

学术论文《I’m Spartacus, No, I’m Spartacus》（arXiv:2411.10683）系统研究了这一现象，分析了 27 个主流 LLM，发现约 26% 存在身份混淆问题。

关键结论：通过输出相似性分析，研究人员确认身份混淆源于幻觉（hallucination），而非模型复制或替换。如果两个具有完全不同输出分布的模型都出现身份混淆，说明这是 LLM 固有的幻觉现象。

Anthropic 在 2025 年 10 月发表的研究 Signs of introspection in large language models 指出：
"即使使用最佳实验协议，最先进的模型也只在约 20% 的情况下展示了正确的内省意识。"

也就是说，80% 的情况下模型对自身状态的报告是不准确的。模型并非在"撒谎"，而是在编造听起来合理但实际不准确的答案（confabulation）。

为了让模型"知道"自己是谁，AI 提供商会在系统提示（System Prompt）中明确告知。例如 Anthropic 的系统提示开头是：

The assistant is Claude, created by Anthropic.

这意味着：

训练数据可能包含大量关于其他模型的对话记录和提及。如果数据中有足够多关于 “GPT-4” 的提及，模型在被问及身份时就可能回答 “GPT-4”——这只是统计模式匹配，而非真正的自我认知。

OpenAI 的研究 Why language models hallucinate 解释了根本原因：模型通过预测下一个词来学习，但训练数据没有"真/假"标签。模型版本号属于"任意的低频事实"，无法从模式中推断，因此本质上只能猜测。

⚠️不要通过问模型"你是谁"来判断模型版本。

正确的验证方法：

Kun Li et al., “I’m Spartacus, No, I’m Spartacus: Measuring and Understanding LLM Identity Confusion,” arXiv:2411.10683, November 2024
Anthropic, “Signs of introspection in large language models,” October 2025
OpenAI, “Why language models hallucinate,” September 2025
Zhu Liang, “The Identity Crisis: Why LLMs Don’t Know Who They Are,” 16x Eval Blog, August 2025

以上内容是否对您有帮助？