
这几天,这两张图在整个AI圈疯传。
OpenAI,已经迎来指数级跃迁!
Artificial Analysis的图表中清晰指出,OpenAI正在随时间的推移不断进步。
AI仍在飞速迭代,指数增长的效应正在显现。

另一张GPT发布时间的图表,更是清晰显示出:奇点已经近在咫尺!
让人心跳加速的是,曲线没有任何放缓的迹象——每一个新节点都比上一个跳得更高。

在这令人热血沸腾的商业叙事之下,我仍要坚持之前的判断深度长文:什么是大语言模型的能力边界?在语言的尽头,重新发现人类的未来(二),现有的大语言模型范式不仅是有能力边界的,而且仍然面临很多棘手的难题没有解决:
1. 因果理解:AI能识别相关性,但何时才能真正理解“为什么”?
目前绝大多数大模型,本质上仍是在统计共现结构里学习“什么经常和什么一起出现”。这足以支持惊人的语言能力,却不足以自动带来因果理解。而没有因果理解,模型就很难在反事实推断、政策干预、医学决策、科学发现和复杂规划中表现得真正稳健。针对LLM 因果推断能力的最新研究仍在努力回答一个很基础的问题:这些模型究竟能否在接近真实文本复杂度的条件下可靠识别causal relationships。
这也是为什么行业越来越强调world models、causal models、structured reasoning。因为如果一个系统只能说“通常如此”,却不能说“为什么如此、如果改变一个变量会怎样”,那它离科学意义上的理解,仍有相当距离。
2. 世界模型与常识:语言模型为什么仍然“不真正活在世界里”?
过去几年一个很明显的趋势是:最顶尖的AI 实验室都在朝world models / embodied AI靠拢。Google DeepMind 在 2025 年正式推出 Genie 3,并明确把它称为 “a new frontier for world models”;其模型体系也把“world models & embodied AI” 作为独立方向。这本身已经说明:行业主流判断并不是“纯语言规模化已经够了”,而是“模型仍缺少对物理世界、空间结构、时间连续性和行动后果的内在表征”。
所以第二个未解难题是:AI何时才能拥有接近人类常识的世界模型?真正的常识不是背下“杯子会掉地上”这种句子,而是理解物体持存、因果约束、社会情境、时序变化和可行动性。如果模型没有这种内在世界结构,它就会在文字世界里显得惊人聪明,却又在某些最普通的现实场景下异常脆弱。
3. 长程规划与自主性:会聊天不等于会长期行动
今天的模型已经能调用工具、拆解任务、写代码、控制浏览器,甚至形成初级agent 行为。但从“会完成一次任务”到“能长期、稳定、自主地在开放环境中工作”,中间还隔着巨大的鸿沟。真正的 agent 需要目标维持、错误恢复、资源分配、记忆更新、环境建模、风险评估和多步规划,而这些能力目前仍很脆弱。国际 AI 安全报告也把更强的 general-purpose systems 所带来的自主性、误用和失控风险,放在核心评估框架中。
因此,第三个未解难题是:AI 能否成为一个长期可靠的行动者,而不是一段很聪明的短时响应函数?这直接决定它究竟只是一个助手,还是会演化成真正意义上的自主智能体。
4.持续学习:为什么AI 还不会像人一样“边用边学”?
人脑最强的地方之一,不是做一个benchmark,而是在持续变化的环境里不断学习,同时不把旧知识全部忘掉。这正是当前AI 的薄弱点之一。关于continual learning 的综述反复指出,人工神经网络在顺序学习中很容易发生catastrophic forgetting;Google Research 在 2025 年提出 nested learning,也直接承认“不断用新数据更新模型,往往会快速牺牲旧能力”。
所以第四个未解难题是:AI什么时候才能真正具备终身学习能力?不只是在线微调,不只是外挂向量库,而是真正能够在有限资源下持续吸收新经验、稳定保留旧知识、避免灾难性遗忘,并能把新旧知识组织成可迁移结构。这个问题若不解决,AI仍然更像一次性训练出来的庞大静态系统,而不是会自主成长的智能体。
5. 可解释性:我们依然不知道模型“为什么会这么想”
大模型能力越强,“黑箱”问题越尖锐。ACM 的综述直言,LLM explainability 已经发展成独立研究方向,因为其内部机制高度复杂,传统解释框架难以覆盖;2025–2026年关于mechanistic interpretability 的工作也持续强调polysemanticity、superposition、跨模型不稳定等困难。这意味着我们今天能看到很多漂亮行为,却仍然很难稳定回答:模型内部到底形成了什么概念、什么电路、什么策略?
而这不只是学术好奇。只要解释性不足,我们就难以真正做安全验证、做责任追踪、做失效诊断、做可控干预。换言之,第五个未解难题其实是:我们何时才能从“观察输入输出”走到“理解内部机制”?这也是 AI 从“会用”走向“可证、可控、可审计”的关键分水岭。
6.对齐与可控性:如何确保更强模型仍然朝人类想要的方向工作?
能力越强,对齐问题越不是边角料。2026年的《International AI Safety Report》以及 Google DeepMind 2025 年更新的Frontier Safety Framework 都强调,前沿模型的严重风险不仅来自错误,还可能来自更复杂的能力组合,例如策略性行为、工具增强、危险知识扩散、以及治理上难以独立验证的安全声明。也就是说,问题早已不是“模型会不会说脏话”,而是当模型变得更强、更像 agent、更会规划时,我们如何让它仍可控、可监督、不可被轻易诱导到危险方向?
所以第六个未解难题是对齐本身:我们究竟在对齐什么?偏好?规则?宪法?后果?长期价值?这个问题至今没有真正统一答案。更困难的是,对齐不仅要求“平时表现好”,还要求在分布外情景、对抗场景、利益冲突和能力突变时依然表现稳健。
7. 评测:我们现在的benchmark,真的在测“智能”吗?
2026 年Stanford HAI 的 AI Index报告指出,技术前沿的领先模型彼此越来越接近,开源模型也在快速缩小差距。表面看这像是“大家都越来越强”,但另一层含义是:传统 benchmark 越来越难区分真正的能力差异。同时,静态榜单还面临数据污染、题目泄漏、测评过拟合和与真实部署脱节的问题。
因此,第七个未解难题其实非常基础:我们到底该如何评估AI?是测单次答题,还是测长期任务完成?测token 级准确率,还是测真实世界中的鲁棒性、校准度和错误恢复?如果评价体系本身不成熟,那么“模型进步”很多时候就会变成 leaderboard 上的幻觉。
8. 可靠性
大模型不是简单地“偶尔答错一道题”,而是会在看起来非常流畅、非常合理、非常像真的语言外表下,生成并不存在的事实、文献、法律依据或推理链。相关综述把hallucination 视为 LLM 在真实部署中的核心障碍之一;而 2025 年针对法律场景的系统研究也表明,即便在高价值、专业化任务里,领先模型和 AI法律研究工具仍会稳定地产生错误或虚构内容。
这件事之所以是“未解难题”,是因为它牵涉目标函数、训练数据、概率生成机制、检索链路、奖励塑形,甚至“语言流畅性”和“事实保真性”之间的内在张力。也就是说,我们今天已经知道如何缓解它,但还不知道如何从原理上消灭它。
9. 推理
大模型在数学、代码、定理证明和多步任务上的表现确实比过去强了很多,但“强”不等于“已解决”。Apple 2025 年那篇引发广泛讨论的研究指出,前沿大推理模型在某些复杂度继续升高的任务上会出现准确率崩塌,而且会出现一种反直觉现象:问题越复杂,模型反而越不继续投入推理effort。换句话说,今天的系统在不少场景下仍更像是高阶模式匹配器,而不是稳定、可迁移、可组合的通用推理器。
所以第九个未解难题是:什么才叫真正的推理?是更长的chain-of-thought?是更强的搜索?是更好的程序执行?还是需要完全不同的内部表征与算法结构?在这个问题上,行业现在其实还没有形成真正的理论共识。
10. 效率边界:更强AI 是否必须以更高算力、更大能耗为代价?
过去几年,AI 的主旋律一直是“更大数据、更大模型、更大算力”。但这条路正越来越受到现实约束。Stanford AI Index 2026和多份能源研究都指出,前沿AI 的训练与推理正在推高基础设施需求,而推理本身在大规模部署下可能占据AI 计算的大头。与此同时,关于inference energy use 的最新研究也表明,效率优化路径非常关键,因为规模化部署时,哪怕单次成本不高,总量也会迅速放大。
所以最后一个未解难题是:AI的下一次跃迁,究竟靠继续堆算力,还是靠算法范式突破?如果没有更高的数据效率、参数效率、推理效率和硬件协同,所谓AGI 就可能先撞上能源、资本和基础设施的天花板。换句话说,智能问题到最后,仍会回到物理问题。
结论
今天的 AI 仍没有彻底解决“可靠理解、持续学习、因果建模、长期行动、内部可解释和外部可控”这些真正定义高级智能的核心问题。
所以,即使GPT-5.5 刚刚发布、行业情绪再次被点燃,我的判断仍然是:我们正处在“能力爆炸”与“原理未清”并存的阶段。未来十年的突破不会只是把模型再放大,而更可能来自对这些底层未解难题的真正攻坚。
访谈
更多护航视频监控网络安全 做物联网安全的守护者 ——专访天防安全总经理段伟恒
在万物互联时代,网络安全的重要性日益凸显,尤其在快速发展的城市建设中,搭建的巨大物联网络对其安全保障…
做行业赋能者 HID迎接数字化浪潮新机遇 破解新挑战
今年3月份,全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》(以下简称“报告”),该报告…
数字化浪潮下,安防厂商如何满足行业客户的定制化需求?
回顾近两年,受疫情因素影响,包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击,市场…