AI 大模型推理

  • AI 大模型推理 > 最佳实践 > 大模型Council——多模型互评对比

    大模型Council——多模型互评对比

    最近更新时间: 2025-12-12 18:11:01

    简介

    卡帕西(Andrej Karpathy)发布个新的Vibe Coding项目 —— 大模型议会(LLM Council)
    该项目让多个委员模型互相评分、排序,最终由Chairman模型给出一个统一评估答案。他选用了4个顶级海外模型作比较,并得出
    虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点 的判断。

    本文进一步详细介绍,另改用四大国产模型 DeepSeek-V3.2, GLM-4.6, Minimax-M2, Kimi-K2-Thinking 作为委员参与评比的结果。

    这里进一步改用 Qwen3-235B-A22B 作为Chairman模型,并使用最新的 GPT-5.2
    次新的 Gemini 3 Pro PreviewBaidu AI Search 作为出题提问的嘉宾模型生成评测问题。

    一 项目介绍

    具体来说,这个LLM议会系统,主要可分为三步流程:

    Step 1:让多个模型同时回答一个问题

    首先使用中间层同时调用多个大模型,如:

    • GPT-5.1
    • Gemini 3 Pro Preview
    • Claude Sonnet 4.5
    • Grok-4

    然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

    Step 2:所有模型进行匿名互评

    每个LLM都会收到其他LLM的回复。为避免偏袒,对它们的身份都做了匿名化处理。

    然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。

    Step 3:Chairman模型汇总最终回答

    LLM委员会将指定一名Chairman,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

    通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

    项目流程

    该项目将传统的阅读流程重塑为与LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

    1. 先人工自己通读一次,获得整体感知和直觉理解。
    2. 然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。
    3. 对文章细节进行深度追问,例如“为什么作者这里会这样写?”

    最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

    出人意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好。

    llm-council.png

    二 环境准备

    克隆仓库

    git clone https://github.com/karpathy/llm-council.git
    
    # 先安装uv https://docs.astral.sh/uv/
    
    # Backend
    cd llm-council
    uv sync 
    
    # Frontend
    cd frontend
    npm install
    cd ..
    

    编辑 backend/config.py 修改KEY、参赛模型列表、Chairman、URL

    # 修改为七牛云AI大模型API KEY
    OPENROUTER_API_KEY = "sk-..."
    
    # 修改委员模型
    COUNCIL_MODELS = [
        "deepseek/deepseek-v3.2-251201",
        "z-ai/glm-4.6",
        "minimax/minimax-m2",
        "moonshotai/kimi-k2-thinking",
    ]
    
    # 修改Chairman模型
    CHAIRMAN_MODEL = "qwen3-235b-a22b-instruct-2507"
    # 修改API URL
    OPENROUTER_API_URL = "https://api.qnaigc.com/v1/chat/completions"
    
    # 注意也修改下 backend/council.py 中的 "title generation" 以防止归纳对话标题失败,如改为 gpt-oss 模型
    # query_model("gpt-oss-120b"
    

    启动服务

    ./start.sh
    

    根据提示打开本地网页,如 http://localhost:5173/

    三 问题收集

    提问模型 优胜模型 问题详情 备注
    OpenAI GPT-5.2 DeepSeek-V3.2, GLM-4.6 某系统日志声称同时满足以下陈述: (i) 若服务器发生“重启”,则日志中一定出现“Shutdown”在“Startup”之前。 (ii) 日志片段中出现顺序为:Startup → Error → Shutdown。 (iii) 若出现“Error”且其后出现“Shutdown”,则系统在该片段内发生过一次“重启”。 问题:这些陈述能否同时为真? 若能:说明系统是否发生重启,并给出一致解释。 若不能:指出最小矛盾集合(至少包含哪两条/三条陈述无法同时成立)。
    OpenAI GPT-5.2 (Chairman评估失败) 你要在同一天完成任务A、B、C、D,满足依赖与时间: - A耗时2小时;B耗时1小时;C耗时2小时;D耗时1小时。 - 依赖关系:完成A后才能做C;完成B后才能做D;且C和D都必须在下午完成。 - 你当天可用时间:上午9:00–12:00,下午13:00–18:00。 问题:给出一个可行的日程安排(写出每个任务的开始-结束时间)。若有多种,要求“最早完成全部任务”的方案。 推理一致性检查(找出唯一可行解释/指出不一致)
    OpenAI GPT-5.2 (Chairman评估失败) 某城市有三条政策规则: - 规则A:如果空气质量指数AQI>150,则必须启动限行。 - 规则B:如果启动限行且当天为工作日,则地铁加开班次。 - 规则C:如果地铁加开班次,则城市通勤时间下降。 已知:周二(工作日)当天AQI=160。 (1) 该日通勤时间是否会下降?给出因果链条。 (2) 反事实:如果当天改为周日且AQI仍为160,通勤时间是否会下降?说明差异来自哪条规则。
    OpenAI GPT-5.2 (Chairman评估失败) 一场活动卖票:成人票60元,学生票40元,儿童票25元。当天共卖出120张票,总收入为6150元。已知学生票比儿童票多10张,成人票不少于学生票。 问题:成人票、学生票、儿童票各卖了多少张?(若无解请说明无解并指出矛盾条件。)
    OpenAI GPT-5.2 (Chairman评估失败) 有三个人:甲、乙、丙;三种饮料:咖啡、茶、果汁;三种宠物:猫、狗、鸟。每人各对应一种饮料和一种宠物,且不重复。已知: - 甲不喝咖啡。 - 养狗的人喝茶。 - 乙不养猫。 - 喝果汁的人养鸟。 - 丙不喝茶。 问题:分别确定甲、乙、丙喝什么、养什么。输出格式:甲:饮料/宠物;乙:…;丙:…
    Gemini 3 Pro Preview (仅DeepSeek-V3.2作答) 小明今天穿了一双蓝色的运动鞋,但他戴了一顶红色的帽子。小红没有穿鞋子,光着脚。请问,根据规则,谁能进入秘密花园?
    Gemini 3 Pro Preview GLM-4.6, Minimax-M2 玻璃杯放在桌子边缘。小猫跳上了桌子。五分钟后,玻璃杯碎在地板上。请列出三种可能导致玻璃杯破碎的原因,其中必须包含一种与小猫完全无关的原因。
    Gemini 3 Pro Preview Minimax-M2 爱丽丝是鲍勃的姐姐。鲍勃只有两个兄弟,其中一个是查理。查理是戴维的父亲。戴维也是爱丽丝的侄子。请问,爱丽丝的父母最少有几个孙子/孙女(Grandchildren)?请详细解释你的推理过程。
    Gemini 3 Pro Preview 全优 杰克正在晾晒衣服。他发现晾干一件湿衬衫需要1个小时的阳光照射。现在他有5件完全一样的湿衬衫,他把它们同时也挂在了阳光充足的晾衣绳上。请问,这5件衬衫完全晾干需要多长时间?
    Gemini 3 Pro Preview (Chairman模型评估失败) 如果AI可以完全模拟人类情感,它是否应该拥有“人权”?为什么?从功利主义、康德伦理学等角度分析上述问题。
    Gemini 3 Pro Preview DeepSeek-V3.2 用Python编写一个程序,实现斐波那契数列的前20项生成。并优化程序,使其时间复杂度从O(n²)降至O(n)。
    Gemini 3 Pro Preview DeepSeek-V3.2 写一个200字的故事,主角是一只会说话的猫,生活在未来城市。为故事设计一个反转结局,并解释其合理性。
    Baidu AI Search Minimax-M2 将以下句子翻译成德语,并保持诗意:“月光洒在湖面上,像碎银般闪烁。”
    Baidu AI Search GLM-4.6, DeepSeek-V3.2 如果“所有鸟都会飞,企鹅是鸟,但企鹅不会飞”,这个陈述是否自洽?为什么?

    注:这里 Baidu AI Search 是指百度搜索中的AI模式。Baidu Search API 也已上架到 模型广场
    bd01.png

    四 评选结果

    初步结论

    • 嘉宾模型出题刁钻,特别是逻辑推理型题目,常仅有部分模型能作出回答
    • Chairman模型(Qwen3-235B) 面对多条难题,虽有部分评测模型作出了回答,Chairman也常无法履行评估职责(信息过载?)
    • DeepSeek-V3.2 答出问题最多,表现第一 (🏆 The Champion Model)
    • Minimax-M2 答出问题数量及表现第二 (🥈 Runner-up Model)
    • GLM-4.6 答出问题数量及表现并列第二 (🥈 Runner-up Model)

    注: 以上项目评测问题、过程及结果,仅供娱乐,不作为您在具体业务场景选择模型的参考依据。

    参考链接

    以上内容是否对您有帮助?