AI 大模型推理 > 最佳实践 > 大模型Council——多模型互评对比

大模型Council——多模型互评对比

最近更新时间: 2026-02-10 16:55:23

简介

卡帕西(Andrej Karpathy)发布个新的Vibe Coding项目 —— 大模型议会(LLM Council)
该项目让多个委员模型互相评分、排序，最终由Chairman模型给出一个统一评估答案。他选用了4个顶级海外模型作比较，并得出
虽然模型内部自评不一定与人类主观一致，但类似的多模型集成或许将成为一个巨大的可探索空间，甚至可能成为未来LLM产品的一个突破点 的判断。

本文进一步详细介绍，另改用四大国产模型 DeepSeek-V3.2, GLM-4.6, Minimax-M2, Kimi-K2-Thinking 作为委员参与评比的结果。

这里进一步改用 Qwen3-235B-A22B 作为Chairman模型，并使用最新的 GPT-5.2 ，
次新的 Gemini 3 Pro Preview 及 Baidu AI Search 作为出题提问的嘉宾模型生成评测问题。

一项目介绍

具体来说，这个LLM议会系统，主要可分为三步流程：

Step 1：让多个模型同时回答一个问题

首先使用中间层同时调用多个国际主流大模型，如：

GPT-5.1
Gemini 3 Pro Preview
Claude Sonnet 4.5
Grok-4

然后在同一问题下逐个收集它们的回复，并以标签视图的形式展示，以便用户进行检查。

Step 2：所有模型进行匿名互评

每个LLM都会收到其他LLM的回复。为避免偏袒，对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估，需要给出评分和详细理由。

Step 3：Chairman模型汇总最终回答

LLM委员会将指定一名Chairman，将所有模型的回复汇总，并形成一个最终的答案，再转交给用户。

通过这个过程，就能直接对比不同模型，在处理同一个问题时的风格差异，而且能够直观地看到模型之间互相评价的过程。

项目流程

该项目将传统的阅读流程重塑为与LLM协作的流程，通常阅读一篇文章内容也分为三个阶段：

先人工自己通读一次，获得整体感知和直觉理解。
然后将内容交给大模型处理，让它理解重难点、提取结构、总结内容等。
对文章细节进行深度追问，例如“为什么作者这里会这样写？”

最终就是将写作对象从人类读者转变为LLM读者，让LLM作为中介理解内容，再个性化翻译给不同的读者听。

出人意料的是，模型几乎很少出现明显的偏见，它们通常会愿意承认自己的答案不如另一个模型好。

二环境准备

克隆仓库

git clone https://github.com/karpathy/llm-council.git

# 先安装uv https://docs.astral.sh/uv/

# Backend
cd llm-council
uv sync 

# Frontend
cd frontend
npm install
cd ..

编辑 `backend/config.py` 修改KEY、参赛模型列表、Chairman、URL

# 修改为七牛云AI大模型API KEY
OPENROUTER_API_KEY = "sk-..."

# 修改委员模型
COUNCIL_MODELS = [
    "deepseek/deepseek-v3.2-251201",
    "z-ai/glm-4.6",
    "minimax/minimax-m2",
    "moonshotai/kimi-k2-thinking",
]

# 修改Chairman模型
CHAIRMAN_MODEL = "qwen3-235b-a22b-instruct-2507"
# 修改API URL
OPENROUTER_API_URL = "https://api.qnaigc.com/v1/chat/completions"

# 注意也修改下 backend/council.py 中的 "title generation" 以防止归纳对话标题失败，如改为 gpt-oss 模型
# query_model("gpt-oss-120b"

启动服务

./start.sh

根据提示打开本地网页，如 http://localhost:5173/

三问题收集

提问模型	优胜模型	问题详情
`OpenAI GPT-5.2`	`DeepSeek-V3.2`, `GLM-4.6`	某系统日志声称同时满足以下陈述： (i) 若服务器发生“重启”，则日志中一定出现“Shutdown”在“Startup”之前。 (ii) 日志片段中出现顺序为：Startup → Error → Shutdown。 (iii) 若出现“Error”且其后出现“Shutdown”，则系统在该片段内发生过一次“重启”。问题：这些陈述能否同时为真？若能：说明系统是否发生重启，并给出一致解释。若不能：指出最小矛盾集合（至少包含哪两条/三条陈述无法同时成立）。
`OpenAI GPT-5.2`	(Chairman评估失败)	你要在同一天完成任务A、B、C、D，满足依赖与时间： - A耗时2小时；B耗时1小时；C耗时2小时；D耗时1小时。 - 依赖关系：完成A后才能做C；完成B后才能做D；且C和D都必须在下午完成。 - 你当天可用时间：上午9:00–12:00，下午13:00–18:00。问题：给出一个可行的日程安排（写出每个任务的开始-结束时间）。若有多种，要求“最早完成全部任务”的方案。推理一致性检查（找出唯一可行解释/指出不一致）
`OpenAI GPT-5.2`	(Chairman评估失败)	某城市有三条政策规则： - 规则A：如果空气质量指数AQI>150，则必须启动限行。 - 规则B：如果启动限行且当天为工作日，则地铁加开班次。 - 规则C：如果地铁加开班次，则城市通勤时间下降。已知：周二（工作日）当天AQI=160。 (1) 该日通勤时间是否会下降？给出因果链条。 (2) 反事实：如果当天改为周日且AQI仍为160，通勤时间是否会下降？说明差异来自哪条规则。
`OpenAI GPT-5.2`	(Chairman评估失败)	一场活动卖票：成人票60元，学生票40元，儿童票25元。当天共卖出120张票，总收入为6150元。已知学生票比儿童票多10张，成人票不少于学生票。问题：成人票、学生票、儿童票各卖了多少张？（若无解请说明无解并指出矛盾条件。）
`OpenAI GPT-5.2`	(Chairman评估失败)	有三个人：甲、乙、丙；三种饮料：咖啡、茶、果汁；三种宠物：猫、狗、鸟。每人各对应一种饮料和一种宠物，且不重复。已知： - 甲不喝咖啡。 - 养狗的人喝茶。 - 乙不养猫。 - 喝果汁的人养鸟。 - 丙不喝茶。问题：分别确定甲、乙、丙喝什么、养什么。输出格式：甲：饮料/宠物；乙：…；丙：…
`Gemini 3 Pro Preview`	(仅`DeepSeek-V3.2`作答)	小明今天穿了一双蓝色的运动鞋，但他戴了一顶红色的帽子。小红没有穿鞋子，光着脚。请问，根据规则，谁能进入秘密花园？
`Gemini 3 Pro Preview`	`GLM-4.6`, `Minimax-M2`	玻璃杯放在桌子边缘。小猫跳上了桌子。五分钟后，玻璃杯碎在地板上。请列出三种可能导致玻璃杯破碎的原因，其中必须包含一种与小猫完全无关的原因。
`Gemini 3 Pro Preview`	`Minimax-M2`	爱丽丝是鲍勃的姐姐。鲍勃只有两个兄弟，其中一个是查理。查理是戴维的父亲。戴维也是爱丽丝的侄子。请问，爱丽丝的父母最少有几个孙子/孙女（Grandchildren）？请详细解释你的推理过程。
`Gemini 3 Pro Preview`	全优	杰克正在晾晒衣服。他发现晾干一件湿衬衫需要1个小时的阳光照射。现在他有5件完全一样的湿衬衫，他把它们同时也挂在了阳光充足的晾衣绳上。请问，这5件衬衫完全晾干需要多长时间？
`Gemini 3 Pro Preview`	(Chairman模型评估失败)	如果AI可以完全模拟人类情感，它是否应该拥有“人权”？为什么？从功利主义、康德伦理学等角度分析上述问题。
`Gemini 3 Pro Preview`	`DeepSeek-V3.2`	用Python编写一个程序，实现斐波那契数列的前20项生成。并优化程序，使其时间复杂度从O(n²)降至O(n)。
`Gemini 3 Pro Preview`	`DeepSeek-V3.2`	写一个200字的故事，主角是一只会说话的猫，生活在未来城市。为故事设计一个反转结局，并解释其合理性。
`Baidu AI Search`	`Minimax-M2`	将以下句子翻译成德语，并保持诗意：“月光洒在湖面上，像碎银般闪烁。”
`Baidu AI Search`	`GLM-4.6`, `DeepSeek-V3.2`	如果“所有鸟都会飞，企鹅是鸟，但企鹅不会飞”，这个陈述是否自洽？为什么？

注：这里 Baidu AI Search 是指百度搜索中的AI模式。Baidu Search API 也已上架到模型广场。

四评选结果

初步结论

嘉宾模型出题刁钻，特别是逻辑推理型题目，常仅有部分模型能作出回答
Chairman模型(Qwen3-235B) 面对多条难题，虽有部分评测模型作出了回答，Chairman也常无法履行评估职责（信息过载？）
DeepSeek-V3.2 答出问题最多，表现第一 (🏆 The Champion Model)
Minimax-M2 答出问题数量及表现第二 (🥈 Runner-up Model)
GLM-4.6 答出问题数量及表现并列第二 (🥈 Runner-up Model)

注: 以上项目评测问题、过程及结果，仅供娱乐，不作为您在具体业务场景选择模型的参考依据。

参考链接

github.com/karpathy/llm-council

以上内容是否对您有帮助？

AI 大模型推理