据法国《回声报》网站2月18日发表题为《“就连什么是人类智能都没有共识”:人工智能学徒们的信仰之战》的文章,内容如下:
大语言模型的拥护者与批评者之间的分歧从未如此之大。
去年12月19日晚,美国旧金山,整座城市对人工智能的普遍热情遭遇了一次小小的降温。傍晚6时许,米申区的电力变压器突发火灾,导致13万户人家停电,数百个交通信号灯同时熄灭。
路面车流随即分化为两个世界:由人类驾驶的车辆,尚能基本正常通过路口;而谷歌旗下子公司“出行新方式”公司(Waymo)运营的无人驾驶出租车车队,却瞬间陷入瘫痪。
运转失灵
这些布满摄像头与激光雷达的捷豹运动型多用途汽车(SUV),早已是这座城市的日常风景。人们通过应用程序呼叫车辆,它们能规范停车、顺畅应对车流、骑车的人和分心的行人,甚至能识别出人行道上拿着气球、可能突然冲入车道的孩子。
这些传感器每秒传输十次千兆字节的数据,由汽车实时分析,并回传至Waymo用于人工智能(AI)训练。其思路是:积累尽可能多的应用场景,以应对意外情况。但在那个周五晚上,Waymo的工程师未能预判到信号灯全面失灵的情况。随后引发的混乱被大量发布在社交网络上:车辆僵在十字路口或路中央动弹不得。
对于大语言模型的怀疑者而言,这恰恰证明:AI工具包绝对需要另一种思路来补充,一种更能理解现实生活(比如城市电力中断)的思路。驱动Waymo SUV的AI属于视觉语言模型(VLM),顾名思义,它是一个整合了视觉数据的大语言模型,或是其多模态版本(MMLM),例如,它可以捕捉声音来识别附近的救护车。
Waymo汽车的学习数据量极其庞大,以至于要存储在谷歌的巨型云端,其中一部分数据再灌入车载计算机。Waymo车队也遵循着与当代人工智能相同的逻辑:大量依赖合成数据——具体而言,是数十亿公里的模拟行驶里程,相比之下实际行驶里程仅为一亿公里左右。
到目前为止,这套模式效果不错:Waymo宣称,相比人类驾驶员,其车辆每公里造成的事故数量极低,造成重伤的事故减少了91%。但驾驶本质上是一连串微小的例外情况,人类可以轻松应对,而大语言模型却需要费力学习。
得益于对周围环境的超精确了解,今年在美国6座城市部署的Waymo汽车,运行在一个不确定性已被大幅降低的环境中。这只解决了定位问题,却无法解决近距离即时导航问题。一旦突然取消红绿灯,或出现异常天气现象,汽车就会出现故障。
另辟蹊径
不过我们注意到,去年,一辆特斯拉成功地在高峰时段独自穿过了巴黎的星形广场。此外该品牌积累了如此多的数据,以至于去年12月底,一辆Model 3在无需驾驶员干预的情况下穿越了美国,包括停车和充电。
计算机科学家杨立昆反复强调:“这正是大语言模型的全部局限所在。”这位法国人最近离开了他在Meta公司领导人工智能团队长达13年的职位。具有讽刺意味的是,这位研究员竟然否定了曾为他带来盛名的技术路线。
对他来说,大语言模型绝非实现通用人工智能(AGI,即机器将在某些领域达到甚至超越人类)这一圣杯的途径。他甚至认为,坚持这种研究路径的学生是在浪费时间。
他借用驾驶汽车的例子来类比,指出大语言模型无法像人类一样,经过十几小时课程就学会开车。在多次公开讲话中,他详细阐述了自己的观点:“一个大语言模型的训练语料,人类需要45万年才能读完。对比一下:一个四岁的孩子,清醒时间约16000小时。仅凭视觉,借助视神经中的两百万条神经纤维,他捕捉到的数据,就远远超过了一个普通大语言模型!”
更何况,杨立昆还未计入听觉、触觉、嗅觉等其他感官输入。正是这些,让人类成为一台无可匹敌的、积累现实世界知识的机器,而大语言模型只是在囫囵吞枣地摄取文本。语言模型需要海量样本才能理解现实,而四岁的孩子只需要一次经历,就知道不该拽猫尾巴、不该碰烤箱门。
因此,这位法国研究者断言:靠大语言模型,绝不可能实现与人类匹敌的智能。要接近人类水平,必须走一条完全不同的道路,构建一系列“世界模型”,其基础是具备与生物相近的感官输入理解能力。
正是基于这些原则,这位研究者兼企业家在巴黎创立了AMI实验室,其理念与大语言模型截然相反。
杨立昆的“世界模型”也不乏批评者。本次调查采访的他在Meta的许多前同事认为,他低估了大语言模型持续不断的进步。
两面下注
“我对此持相当中立的态度。”法国初创企业米斯特拉尔人工智能公司研究负责人亚历山大·萨布莱罗勒表示。他曾是杨立昆在纽约大学的同学。
萨布莱罗勒说:“我们看性能就好,看看人们能把这些机器推到什么程度。我不认为这些模型的随机性使得它们存在本质的局限性。”
就连谷歌深层思维公司创始人德米斯·哈萨比斯也表示,他对Veo 3等图像视频生成器“展现出某种对物理世界的理解能力”感到意外。例如,它们在模拟流畅动作方面的逼真度着实令人惊叹。
哈萨比斯同样在两条战线上布局。他在伦敦执掌的谷歌深层思维公司是在性能测试中表现强劲的大语言模型Gemini 3的创造者。但这家谷歌子公司也因其在经典机器学习方面的声誉而闻名。在该领域,模型通过自我学习获得惊人的能力。在组合近乎无限的围棋游戏中,不同版本的AlphaGo模型并非被灌输海量数据,而只是被告知基本规则,然后让模型自我对弈。
这里的关键因素依然是规模。一名顶尖棋手终其一生大约能下5万盘棋,而AlphaZero软件只用3天就下了500万盘棋,变得比2016年击败韩国棋手李世石的算法更强。经过21天的自我学习、3500万盘对弈,一个新版本击败了世界上最强的60位棋手;最终在自我学习40天、6500万盘对弈后,AlphaGo Master版本横扫所有人——无论是人类还是机器。游戏结束。
因此人工智能的未来,很大程度上将取决于大语言模型与“世界模型”的连接,以实现通用人工智能。
前路不平
“认为可以靠大语言模型实现通用人工智能目标的想法完全是胡扯。”杨立昆直言。
去年秋天,他在哈佛大学向学生们概述了他将在其创业公司中实施的模块化认知架构技术。本质上,这是一种主要受人脑结构启发而构建的模型,它包含不同的功能区域,分别负责多感官感知、分析、预测、规划、行动和调整等过程。
障碍并不少。首先是获取这种学习能力的难度。杨立昆设想的认知模型在能力上仍与大脑相去甚远,大脑具有可塑性,在信息存储和利用的组织方面具有无与伦比的效率。
而当下的现实则更为简单:目前在加州的谷歌深层思维公司实验室里,研究人员正训练一台机器人,用一个类似于游乐场抓玩具娃娃的机械臂费力地往便当盒里装东西。当它执行“把红色乐高放进蓝色盒子”的指令时,科学家们便会鼓掌欢呼。
而在其竞争对手波士顿动力公司,能做柔术动作的人形机器人,仍需要24000小时(虚拟)训练,才能复刻一个简单的体操动作。
一边是效果惊艳的大语言模型,一边是它们所缺失的环境感官感知能力,二者之间的鸿沟,正是通用人工智能之争的核心所在。而通用人工智能这个概念的定义本身就值得质疑。
“通用人工智能的概念没有科学依据,”《AI帝国》一书作者郝珂灵指出,“就连人类智能是什么,今天都尚无共识。因此,把整个技术研究领域绑在‘人类智能’这一概念上,至少是冒险的。因为我们不知道如何衡量它,而通用人工智能的概念如今完全建立在信仰之上,而非证据之上。”
然而,这正是预计到2030年将在AI领域投入5万亿到8万亿美元的理由。这些投资必须找到合理依据,否则就可能引发泡沫破裂。(编译/舒梦)
访谈
更多护航视频监控网络安全 做物联网安全的守护者 ——专访天防安全总经理段伟恒
在万物互联时代,网络安全的重要性日益凸显,尤其在快速发展的城市建设中,搭建的巨大物联网络对其安全保障…
做行业赋能者 HID迎接数字化浪潮新机遇 破解新挑战
今年3月份,全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》(以下简称“报告”),该报告…
数字化浪潮下,安防厂商如何满足行业客户的定制化需求?
回顾近两年,受疫情因素影响,包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击,市场…