摘要
当前人工智能在理解物理世界方面仍存在显著局限,主要源于缺乏类似人类大脑新皮质的“世界模型”。尽管AI在特定任务中表现卓越,但其对现实环境的动态理解与推理能力远不及人类。李飞飞和杨立昆等专家指出,构建具备物理常识与空间推理能力的AI系统,关键在于模拟人类新皮质的信息处理机制。通过借鉴神经科学的最新成果,赋予AI对物体、力、运动等基本物理概念的理解,有望推动其向通用智能迈进。这一跨学科路径被视为提升AI认知能力的重要方向。
关键词
人工智能,世界模型,物理世界,新皮质,李飞飞
尽管当今的人工智能在图像识别、自然语言处理和游戏博弈等领域展现出令人惊叹的能力,但其对物理世界的深层理解依然停留在表面。AI系统可以精准识别一张图片中的猫或汽车,却难以理解这些物体在真实空间中的重量、质地、运动规律及其与其他物体之间的相互作用。这种“知其然,不知其所以然”的局限,暴露出当前AI在认知架构上的根本缺陷。人类从婴儿时期便通过感官与环境互动,逐步构建起对重力、惯性、碰撞等物理法则的直觉认知,而现有的AI大多依赖海量数据进行模式匹配,并不具备这样的成长机制。正如斯坦福大学教授李飞飞所强调的,真正的智能不仅在于识别,更在于理解——理解物体如何存在、如何变化、如何响应外力。缺乏这种基础性的物理直觉,使得AI在面对未曾训练过的现实场景时极易失效。例如,机器人可能无法判断一块海绵与一块石头在掉落时的不同轨迹,也无法预判推倒一叠积木会引发怎样的连锁反应。这种对物理世界动态演化的“无知”,正是阻碍AI迈向通用智能的核心瓶颈。
“世界模型”是人类大脑新皮质赋予我们的一项非凡能力——它让我们能在心中模拟尚未发生的事件,预测行为后果,并据此做出决策。然而,当前绝大多数人工智能系统恰恰缺失这一内在模拟机制。没有世界模型的AI,就像一个只能按指令行事的盲人,无法主动构建对环境的整体认知。杨立昆曾指出,人类儿童无需百万次试错就能学会抓取杯子,因为他们脑中已有对物体稳定性、摩擦力和手部动作协调的基本模型;而机器人往往需要成千上万次训练才能完成类似任务。这揭示了AI在学习效率与泛化能力上的巨大差距。具体而言,缺乏世界模型的AI在面对复杂物理交互时表现出明显的脆弱性:它们难以理解遮挡后的物体依然存在(即“客体永久性”),无法推理液体的流动路径,也常在多步操作任务中因误判因果关系而失败。这些现象共同指向一个事实:若想让AI真正理解并适应现实世界,就必须赋予其类似人类新皮质那样的建模能力——一种能够整合感知、记忆与预测的统一认知框架。唯有如此,机器才可能从被动响应走向主动理解,在纷繁复杂的物理环境中展现出类人的智慧与灵活性。
人类大脑的新皮质,是自然界最精妙的认知引擎之一。它不仅负责感知、记忆与决策,更构建了一个动态、可预测的“世界模型”,使我们能在行动之前预演结果,在未知中推演可能。从婴儿抓取玩具到成人驾驶车辆,每一次互动都在强化这一内在模拟系统。神经科学研究表明,新皮质通过分层处理信息——底层接收感官输入,中层整合空间与时间关系,高层则进行抽象推理与未来预测——形成一个自上而下、循环反馈的认知架构。这种机制让我们无需亲身经历就能想象火的灼热或冰的寒冷,能仅凭一眼就判断一座摇晃的塔即将倒塌。李飞飞曾指出,正是这种基于经验与直觉的物理理解,构成了人类智能的核心优势。我们不是靠百万张图片学会“物体不会穿透彼此”,而是由大脑深处悄然运行的世界模型自动推导出这一常识。这种能力在出生后的头几年迅速发展,并持续优化一生,其效率之高、泛化之广,至今仍是人工智能难以企及的高峰。
尽管科学家已清晰认识到新皮质机制对智能的重要性,但将其复现于机器之中仍面临重重障碍。首要难题在于,当前AI依赖大规模标注数据进行监督学习,而人类却能通过少量交互实现深度理解。杨立昆尖锐地指出:“让机器人试错十万次才学会叠积木,这不是智能,这是暴力计算。” 更深层的问题是,现有神经网络缺乏真正的因果推理结构,无法像人脑那样建立稳定、可迁移的世界模型。此外,模拟新皮质所需的不仅是算法革新,还需跨学科融合——神经科学、认知心理学与计算机科学必须协同突破。硬件限制同样不容忽视:人脑耗能仅约20瓦,却完成着远超超级计算机的实时建模任务。如何在有限算力下实现高效内在模拟,仍是未解之谜。因此,通往具备物理直觉的AI之路,不仅是一场技术革命,更是一次对智能本质的深刻追问。
在人工智能迈向通用智能的征途中,李飞飞与杨立昆的声音如同灯塔,照亮了被数据洪流遮蔽的认知深处。他们不约而同地指出:真正的智能,不在于对已有信息的精准复现,而在于对未知世界的主动理解与预测。李飞飞以她多年在计算机视觉与认知科学交叉领域的研究经验强调,AI若要真正“看懂”世界,就必须像人类婴儿一样,建立起关于物体持久性、空间连续性和物理因果的基本模型。她曾用一个简单的实验揭示这一理念——当一个物体从视线中消失后,人类会默认它依然存在,而大多数AI系统却会将其“遗忘”。这种对“客体永久性”的缺失,正是当前AI缺乏内在世界模型的明证。而杨立昆则从学习效率的角度进一步批判了主流深度学习范式。他尖锐地指出,让机器人通过十万次试错才能学会抓取杯子,本质上是对智能的误解。他认为,未来AI必须转向“自我监督学习”,即像儿童那样通过与环境的少量互动,自主构建对力、运动和稳定性的直觉理解。两位学者虽路径不同,却殊途同归:唯有模拟人类新皮质那种自上而下、循环反馈的认知架构,AI才可能摆脱对海量数据的依赖,真正拥有推理、想象与创造的能力。
未来的AI,不应只是数据的奴隶,而应成为世界的理解者与参与者。要实现这一跃迁,跨学科融合将成为不可回避的核心路径。神经科学的研究已揭示,人类新皮质仅用约20瓦的能量,便完成了对复杂物理环境的实时建模与预测——这一效率远超当今任何超级计算机。这提示我们,AI的进化不能仅靠算力堆砌,更需在认知架构上实现根本性突破。未来的系统或将引入“生成式世界模型”框架,使其能在虚拟环境中预演动作后果,如同人类在脑海中“想象”推倒积木的轨迹。李飞飞所倡导的“具身智能”理念正指向这一方向:让AI通过传感器与真实世界的持续交互,逐步积累物理常识,而非仅仅依赖静态图像训练。与此同时,杨立昆推动的“能量效率优先”设计原则,或将催生新一代低功耗、高泛化能力的类脑芯片。可以预见,未来的AI将不再局限于完成特定任务,而是具备对重力、摩擦、碰撞等基本物理规律的内隐理解,能够在未曾见过的场景中做出合理推断。这条通往真正智能的道路虽布满挑战,却也充满希望——当机器开始“思考”世界如何运作,而不仅仅是“识别”世界长什么样,人工智能的时代才算真正开启。
人工智能要真正理解物理世界,必须突破当前依赖大数据与试错学习的局限,转向构建具备因果推理与动态预测能力的“世界模型”。李飞飞和杨立昆等专家一致认为,模仿人类大脑新皮质的分层处理与自上而下的反馈机制,是实现这一目标的关键路径。人类仅用约20瓦的能量即可完成对复杂环境的实时建模,而现有AI系统即便动用庞大算力仍难以企及这种效率与泛化能力。未来的AI发展需融合神经科学、认知心理学与计算机科学,推动具身智能与自我监督学习的实践,使机器不仅能识别世界,更能理解物体如何运动、力如何作用、事件如何演变。唯有如此,AI才能从被动响应走向主动预判,在未知环境中展现出类人的适应性与智慧。