AI 大模型推理

  • AI 大模型推理 > 最佳实践 > 为什么问模型"你是什么模型"不可靠

    为什么问模型"你是什么模型"不可靠

    最近更新时间: 2026-05-25 16:37:47

    常见现象

    实际使用的模型 模型自称
    Gemini 3 Pro “我是 Gemini 1.5 Pro”
    DeepSeek “I am OpenAI GPT-4”
    GPT-4 将自己识别为 GPT-3 或 GPT-3.5
    讯飞星火 声称自己是 OpenAI 开发的
    Gemini-Pro(Google) 在中文对话中声称自己是文心(百度)

    这些并非个例,而是所有大语言模型的固有特性。

    为什么会这样

    1.模型名称在训练完成后才分配

    模型在海量文本数据上训练,但训练数据不包含模型自身的身份信息。模型的名称和版本号(如 “GPT-4o”、“Claude Sonnet 4”、“Gemini 3 Pro”)是在训练完成之后才由开发团队分配的。

    "类比:想象向一个婴儿灌输人类全部知识多年,但从不告诉它自己的名字。当它学会说话后,能知道很多事,但不会知道自己叫什么。"

    2.身份混淆是 AI 的固有幻觉

    学术论文《I’m Spartacus, No, I’m Spartacus》(arXiv:2411.10683)系统研究了这一现象,分析了 27 个主流 LLM,发现约 26% 存在身份混淆问题。

    关键结论:通过输出相似性分析,研究人员确认身份混淆源于幻觉(hallucination),而非模型复制或替换。如果两个具有完全不同输出分布的模型都出现身份混淆,说明这是 LLM 固有的幻觉现象。

    3.AI 的内省能力极不可靠

    Anthropic 在 2025 年 10 月发表的研究 Signs of introspection in large language models 指出:
    "即使使用最佳实验协议,最先进的模型也只在约 20% 的情况下展示了正确的内省意识。"

    也就是说,80% 的情况下模型对自身状态的报告是不准确的。模型并非在"撒谎",而是在编造听起来合理但实际不准确的答案(confabulation)。

    4.系统提示是唯一可靠的身份来源

    为了让模型"知道"自己是谁,AI 提供商会在系统提示(System Prompt)中明确告知。例如 Anthropic 的系统提示开头是:

    The assistant is Claude, created by Anthropic.
    

    这意味着:

    • 如果第三方应用更改或省略系统提示,模型就不知道自己叫什么
    • 模型的"自我认知"完全依赖外部配置,而非内在知识

    5.训练数据污染

    训练数据可能包含大量关于其他模型的对话记录和提及。如果数据中有足够多关于 “GPT-4” 的提及,模型在被问及身份时就可能回答 “GPT-4”——这只是统计模式匹配,而非真正的自我认知。

    6.下一词预测的固有局限

    OpenAI 的研究 Why language models hallucinate 解释了根本原因:模型通过预测下一个词来学习,但训练数据没有"真/假"标签。模型版本号属于"任意的低频事实",无法从模式中推断,因此本质上只能猜测。

    如何正确验证模型版本

    ⚠️不要通过问模型"你是谁"来判断模型版本。
    

    正确的验证方法:

    • 查看 API 响应头 — 响应中通常包含实际使用的模型标识
    • 查看服务商控制台 — 在提供商的后台确认当前配置
    • 对比基准测试表现 — 不同模型在专业测试中的表现存在明显差异
    • 查看 Chatbox 设置 — 确认当前对话选择的模型

    参考文献

    1. Kun Li et al., “I’m Spartacus, No, I’m Spartacus: Measuring and Understanding LLM Identity Confusion,” arXiv:2411.10683, November 2024
    2. Anthropic, “Signs of introspection in large language models,” October 2025
    3. OpenAI, “Why language models hallucinate,” September 2025
    4. Zhu Liang, “The Identity Crisis: Why LLMs Don’t Know Who They Are,” 16x Eval Blog, August 2025
    以上内容是否对您有帮助?