深度元素智能
基于一致性的 AGI 测量
来源: | 作者:DE.Tech | 发布时间: 2025-10-24 | 50 次浏览 | 分享到:
近期由 citet{hendrycks2025agidefinition} 的工作将人工通用智能(AGI)形式化为从 Cattell–Horn–Carroll(CHC)人类认知模型中得出的认知领域熟练度的算术平均值。虽然优雅,但这一定义假设了“可补偿性”——即某些领域的出色能力可以弥补其他领域的失败。然而,真正的通用智能应反映“一致的充分性”:所有关键领域的能力均衡。本文提出一种基于一致性的 AGI 测量方法,基于广义均值在补偿指数连续区间上的积分。这一方法涵盖了算术、几何和调和均值的范围,所得的“曲线下面积”(AUC)量化了在不同补偿假设下的稳健性。与奖励专业化(算术平均)不同,AUC惩罚不平衡并捕捉领域间依赖性。将该方法应用于 GPT-4 和 GPT-5 的 CHC 基础领域评分,结果显示,即使算术得分较高(例如 GPT-5 约为 24%),这些系统仍远未达到通用能力。因此,将广义均值整合进测量中,为衡量 AGI 的真实进步提供了更严格、可解释且更可靠的框架。

🌟 今日前沿论文 · 2025年10月23日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥AI评估

基于一致性的 AGI 测量

#AGI评估#认知领域#广义均值#一致性面积#模型评估

论文原始标题:A Coherence-Based Measure of AGI

论文作者:Author: Fares Fourati

原始摘要:Recent work by citet{hendrycks2025agidefinition} formalized textit{Artificial General Intelligence} (AGI) as the arithmetic mean of proficiencies across cognitive domains derived from the Cattell--Horn--Carroll (CHC) model of human cognition. While elegant, this definition assumes textit{compensability} -- that exceptional ability in some domains can offset failure in others. True general intelligence, however, should reflect textit{coherent sufficiency}: balanced competence across all essential domains. We propose a coherence-aware measure of AGI based on the integral of generalized means over a continuum of compensability exponents. This formulation spans arithmetic, geometric, and harmonic regimes, and the resulting textit{area under the curve} (AUC) quantifies robustness under varying compensability assumptions. Unlike the arithmetic mean, which rewards specialization, the AUC penalizes imbalance and captures inter-domain dependency. Applied to published CHC-based domain scores for GPT-4 and GPT-5, the coherence-adjusted AUC reveals that both systems remain far from general competence despite high arithmetic scores (e.g., GPT-5 at~24%). Integrating the generalized mean thus yields a principled, interpretable, and stricter foundation for measuring genuine progress toward AGI.

翻译标题:基于一致性的 AGI 测量

翻译摘要:近期由 citet{hendrycks2025agidefinition} 的工作将人工通用智能(AGI)形式化为从 Cattell–Horn–Carroll(CHC)人类认知模型中得出的认知领域熟练度的算术平均值。虽然优雅,但这一定义假设了“可补偿性”——即某些领域的出色能力可以弥补其他领域的失败。然而,真正的通用智能应反映“一致的充分性”:所有关键领域的能力均衡。本文提出一种基于一致性的 AGI 测量方法,基于广义均值在补偿指数连续区间上的积分。这一方法涵盖了算术、几何和调和均值的范围,所得的“曲线下面积”(AUC)量化了在不同补偿假设下的稳健性。与奖励专业化(算术平均)不同,AUC惩罚不平衡并捕捉领域间依赖性。将该方法应用于 GPT-4 和 GPT-5 的 CHC 基础领域评分,结果显示,即使算术得分较高(例如 GPT-5 约为 24%),这些系统仍远未达到通用能力。因此,将广义均值整合进测量中,为衡量 AGI 的真实进步提供了更严格、可解释且更可靠的框架。

智能问答:

Q1: 这篇论文试图解决什么问题?

论文针对“如何量化评估通用人工智能(AGI)”这一核心问题,指出当前主流做法——将各认知领域得分简单算术平均——隐含“可补偿性”假设,即某一领域极强可弥补另一领域完全失效。作者认为该假设违背心理测量与系统科学共识:真实通用智能要求所有关键能力至少达到“及格”水平,任何领域彻底短板都会成为系统瓶颈。为此,论文提出一套“基于一致性”的新度量,用广义均值族连续调节补偿程度,并以积分面积(AUC)综合反映模型在不同补偿假设下的稳健性,从而揭示现有高分模型仍存在结构性失衡,避免被算术平均误导。

Q2: 有哪些相关研究?

Hendrycks et al. (2025)
首次将 Cattell–Horn–Carroll(CHC)人类认知能力模型引入 AGI 评估,提出用 10 个领域分数的算术平均作为统一 AGI 分数,是本文直接对话与改进的对象。

CHC 心理测量传统

Carroll (1993)
McGrew (2009, 2023a,b)
建立“三层级”认知能力框架,强调领域间正向协同与一致性,为本文“不可补偿”观点提供实证依据。

多准则决策理论
Keeney & Raiffa (1993) 区分可补偿 vs. 非补偿聚合范式,为本文用广义均值连续调节补偿程度奠定决策科学基础。

系统稳健性/瓶颈理论
Kitano (2004) 提出“系统功能受最弱组件限制”的稳健性原则,与本文“最弱环节”解释直接呼应。

广义均值与幂平均不等式
Bullen (2013) 的数学工具使本文能够把算术、几何、调和均值统一为单参数族,进而积分求 AUC。

外部高难度基准

Chollet (2019); Chollet et al. (2025) ARC-AGI-2
Kazemi et al. (2025) BIG-Bench Extra Hard
用于验证本文新度量与分布外推理能力的构念效度,证明 AGI_AUC 与这些外部指标高度一致。

Q3: 论文如何解决这个问题?

论文把“拒绝可补偿性”转化为可计算的数学约束,核心路线分三步:

用广义均值族代替算术平均
定义

AGI_p = [1/n ∑_{i=1}^n max(s_i, ε)^p]^{1/p}, p ≠ 0
AGI_p = (∏_{i=1}^n max(s_i, ε))^{1/n}, p = 0

其中 p 为“补偿指数”。

p = 1 退回到 Hendrycks 的算术平均(完全可补偿)
p = 0 为几何平均,开始惩罚失衡
p = -1 为调和平均,进一步强调短板
p → -∞ 等价于取最低分,实现“最弱环节”瓶颈

积分得到“一致性面积”
在 p ∈ [-1,1] 区间对 AGI_p 做数值积分,

AGI_AUC = 1/2 ∫_{-1}^1 AGI_p dp

该标量同时反映:

高 AGI_p 曲线 → 各 p 下都表现好,即“均衡高、无致命短板”
陡峭下降 → 存在零分或近零领域,系统脆弱

实证诊断与干预指引
对 GPT-4/5 的 10 个 CHC 领域分数计算发现:

算术平均可给出 58% 的“虚高”信号
AGI_AUC 仅 24%,且曲线在 p < 0 时陡降,直接定位“长期记忆存储=0”等瓶颈
模拟把该短板从 0%→30% 后,AGI_AUC 跃升至 55%,验证“补齐最弱环节”对整体一致性的杠杆效应

通过把“不可补偿”要求嵌入连续 p 域并积分,论文提供了一个单指标、可解释、对短板敏感的 AGI 评估框架,既避免算术平均的膨胀,也防止单纯取最小值的过度稀疏,从而解决了“如何严格度量通用性”的问题。

Q4: 论文做了哪些实验?

实验围绕“用一致性面积 AGI_AUC 重新评估现有模型”展开,全部在公开数据上完成,无需额外训练或采样。具体步骤与结果如下:

数据基线
直接采用 Hendrycks et al. (2025) 公布的 10 个 CHC 领域百分制分数(表 1),覆盖 GPT-4、GPT-5 与理想“AGI”参考。

计算 AGI_p 曲线
对每一模型按

AGI_p = [1/10 ∑_{i=1}^{10} max(s_i, 10^{-6})^p]^{1/p}

在 p ∈ [-1,1] 区间均匀离散网格(步长 0.02)求值,得到 101 点的补偿-性能曲线(图 1)。

积分得 AGI_AUC
用复合梯形公式数值积分,再归一化到 [0,100%] 区间,得到单指标一致性分数:

GPT-4:7%
GPT-5:24%
理想 AGI:100%

瓶颈消融模拟
保持 GPT-5 其余 9 项分数不变,仅把“长期记忆存储”从 0% 提至 30%,观测到

AGI_0(几何平均)由 16% → 46%
AGI_AUC 由 24% → 55%
验证短板改善对整体一致性的非线性提升。

外部基准对齐验证
将内部 AGI_p 系列与两项高难度推理基准对比:

ARC-AGI-2:GPT-5 实际约 18%
BIG-Bench Extra Hard:GPT-4 约 6%
结果显示

算术平均 58%(GPT-5)与 27%(GPT-4)显著偏离外部指标
AGI_AUC 24%(GPT-5)与 7%(GPT-4)和外部得分几乎一一对应,证明构念效度。

领域级再聚合分析(附录 A)
对每一认知域内部的子任务,分别计算

算术/加权算术(AM/WAM)
几何/加权几何(GM/WGM)
发现同一组原始子分数下,几何汇总普遍接近 0,揭示算术汇总在子域层面就已 inflated,进一步说明 AGI_AUC 24% 仍是乐观上界。

全部实验均在公开得分上一次性完成,无额外训练或调参,核心代码不足 50 行(Python + NumPy)。通过上述六步,论文用纯聚合方式“实验性”地展示了:

算术平均如何掩盖致命短板
一致性面积如何定量暴露并定位瓶颈
补齐最弱环节即可在 AGI_AUC 上获得不成比例的大幅增益。

Q5: 有什么可以进一步探索的点?

动态权重与任务依赖
当前各认知域权重固定,未来可基于大规模人类任务日志或因果干预实验,学习“哪一域缺陷对真实任务失败率边际影响最大”,引入数据驱动的自适应权重 w_i(p),使 AGI_p 成为任务敏感指标。

非线性域内评分校正
附录已显示同一子域用算术 vs 几何汇总差距巨大。可进一步为每个子测试建立项目反应理论(IRT)曲线,把原始准确率映射到“信息量-加权”能力值,再输入广义均值,缓解天花板/地板效应带来的分数膨胀。

时序与持续学习评估
现有指标为静态快照。可设计“在线 AGI_AUC”协议:在持续学习流中周期性地重新测量各域,引入遗忘率惩罚项,检验模型是否保持跨领域稳定性,而非一次性刷榜。

多模态依赖图与瓶颈诊断
将十域视为节点,用贝叶斯网络或因果图学习“谁限制谁”的边权重,自动定位对 AGI_AUC 下降贡献最大的最小割集,为架构改进提供可解释路线图。

人机协同基准
探索“人+模型”联合 AGI_AUC,对比单独人类、单独模型、协同三者的曲线差异,量化 AI 在真实协作场景中的互补价值,而非孤立性能。

极端非补偿区间扩展
目前积分区间 p ∈ [-1,1]。可研究 p < -1 乃至 p → -∞ 时的稀疏信号平滑技术(如软最小、LogExp 平均),用于安全关键场景下的“最坏情况”认证。

跨文化公平性检验
同一模型在不同语言/文化群体上的域分数可能不一致。将 AGI_AUC 分解为群体子曲线,检测是否存在显著差异,作为“通用”是否真正普适的公平性诊断。

与神经-符号混合系统结合
对显式记忆模块、视觉推理引擎等插件式组件进行单变量消融,观察 AGI_p 曲线斜率变化,评估符号模块在提升一致性而非单纯准确率方面的边际收益。

开源评估平台与活基准
建立可扩展的在线平台:新任务提交即自动计算其在各 p 值下的贡献,并实时更新 AGI_AUC 排行榜,形成对“刷榜式 specialization”的自我免疫机制。

理论极限与不可能性
探讨在有限参数、有限数据、有限算力三大约束下,AGI_AUC 是否存在可证明的上界,以及该上界随资源增长的缩放律,为“距离真正 AGI 还有多远”提供理论参考。

Q6: 总结一下论文的主要内容

问题

现行 AGI 定义把 10 个认知领域得分做算术平均,隐含“可补偿”假设——某一领域极强可弥补另一领域彻底失效,导致高分模型仍可能存在致命短板。

方法

用广义均值族统一描述补偿程度:

AGI_p = [1/n ∑_{i=1}^n max(s_i, ε)^p]^{1/p}, p ≠ 0
AGI_p = (∏_{i=1}^n max(s_i, ε)^{1/n}, p = 0

p = 1 算术平均(完全可补偿)
p = 0 几何平均(开始惩罚失衡)
p = -1 调和平均(强调短板)
在 p ∈ [-1,1] 区间数值积分,得“一致性面积” AGI_AUC = 1/2 ∫_{-1}^1 AGI_p dp

实验

对 GPT-4/5 的公开 CHC 分数计算:
– 算术平均 27% → 58%,看似进步显著
– 对应 AGI_AUC 仅 7% → 24%,暴露长期记忆、感知等零分瓶颈
模拟把 GPT-5 记忆短板从 0% 提至 30%,AGI_AUC 跃升至 55%,验证“补齐最弱环节”杠杆效应
与 ARC-AGI-2、BIG-Bench Extra Hard 对比,AGI_AUC 与外部高难度基准高度吻合,算术平均则严重虚高

结论

AGI_AUC 提供比算术平均更严格、可解释且对短板敏感的单指标;真正通用智能应表现为整条 AGI_p 曲线平坦且高位,而非局部峰值。未来评估应同时报告算术平均与 AGI_AUC,以区分“广度”与“一致性”,引导研究走向均衡、无致命短板的系统级 competence。

阅读全文 →

来源:Arxiv2025-10-23 17:51:42 UTC


返回
友情链接