PG电子- PG电子平台- PG电子官方网站
孙富春还解释了具身智能与离身智能体的区别。“离身智能体不具备物理形态,被动接受人类采集制作好的数据,停留在纸上谈兵,而具身智能是给机器一个物理的身体或形式来与物理世界交互(如家用服务机器人、无人车等)。1963年麻省理工学院Richard Held教授用一对猫做学习训练,一只猫放在篮子里并蒙上眼睛,另一只猫在物理世界自主行动,结果与物理世界进行感知与交互的猫学会了行走,这个例子进一步说明具身的重要性。”
然而,要实现真正的“智能”,具身智能系统需要具备场景感知、认知、多模态的连续学习等能力为机器人提供更为丰富和全面的环境理解能力。孙富春举例称:“人要做好一件事通常要将抽象的感知提升为认知,而认知最重要的承载是知识,把苹果放在桌子上可以分解为三步。首先,找苹果,这是感知技能加认知技能的结合,我们的大脑指挥颈部带动眼睛扫描;第二步,抓住苹果;第三步,放置苹果。在知识引导下,机器也会如同人一样迅速完成各类任务,并且可以根据操作对象的不同形态、大小、软硬来完成操作。不仅如此,具身智能还体现在智能体做多任务和跨任务方面。”
具体来看,本体作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构,具有广泛适应性的机器人本体是非常必要的。其次,具身智能体是具身于本体之上的智能体,负责感知、理解、决策、控制等核心工作,能够与环境进行自主交互是具身智能的核心。目前,具有通用能力的LLM(大语言模型)和VLM(视觉语言模型)等模型可以赋予具身智能体强大的泛化能力。第三,数据是泛化的关键,但涉及机器人的数据稀缺且昂贵。为了适应复杂环境和任务的泛化性,模型规模变得越来越大,而大规模的模型对于数据的要求更为严格。第四,真实物理环境的诸多方面目前往往难以模拟,如何对简单的仿真和复杂的真实世界进行有效的Sim2Real建模,也是智能体设计的关键。