00
什么是具身智能?
别把它和“机械臂”混为一谈
很多人会问:“工厂里的机械臂早就有了,波士顿动力的狗也跳了好几年舞了,这算什么新概念?”
这里有一个巨大的误区。传统的机器人,是“自动化”,不是“智能化”。
它们的底层逻辑是基于规则(Rule-based)的。
工程师写死一行行代码:Move to (x:100, y:200)。
它只能在这个坐标执行动作。如果你把流水线上的零件悄悄挪开 5 厘米,机械臂还是会抓向原来的位置——然后抓个空。
而具身智能,公式变了:
具身智能 = 大模型的大脑 + 机器人的身体 + 物理世界的交互
它不再是执行死代码,而是拥有了“端到端”(End-to-End)的能力。
它能听懂人话,能看懂世界,能干体力活。
下面这张图里的 Tesla Optimus,就是具身智能最典型的代表形态之一,它拥有了越来越像人的“身体”和“感知系统”。
01
为什么是现在?
机器人技术搞了几十年,为什么偏偏在 2024 年前后爆发?
答案很简单:因为 LLM(大语言模型)“附体”了。
在 GPT-4V 或者 Google RT-2 出现之前,机器人的视觉(CV)和大脑(NLP)是分家的。
现在,Transformer 架构不仅能预测下一个“单词”,也能预测机器人的下一个“动作(Action)”。
这让机器人第一次拥有了“常识”。以前你需要给机器人写一万行代码教它怎么拿鸡蛋(力度、角度、摩擦力),现在大模型通过学习海量数据,自己就知道:拿哑铃要重抓,拿鸡蛋要轻捏。
实验场景:机器人通过摄像头“看”到桌面,结合语言指令,直接输出抓取动作。
03
这块蛋糕有多大?
这不仅仅是科幻狂想,资本和国家队早已入局。
1. 华尔街的预测根据高盛(Goldman Sachs)的预测:在理想情况下,到 2035 年,人形机器人市场的规模将达到1540 亿美元(约合人民币 1.1 万亿元)。
2. 国家的硬指标中国工信部发布的指导意见给出了明确时间表:到 2025 年实现批量生产;到 2027 年综合实力达到世界先进水平。
这意味着,未来 3-5 年内,你很有可能在工厂甚至商场里,看到真正的具身智能机器人在打工。
04
到底能干啥?
你的下一位同事,可能是它
具身智能的落地,目前主要集中在两类场景:
场景一:结构化环境的“蓝领替身”目标非常明确:替代人类去干那些“枯燥、重复、危险”的工作。
比如 Figure AI 的机器人已经进入了宝马工厂试用,而特斯拉的 Optimus 也在实验室里实现了电池单元的自主分类。
*机器人在真实仓库环境中的工作演示。
场景二:非结构化环境的“家庭保姆”这是终极目标。在老龄化社会,未来扶老人上厕所、端茶倒水、做饭洗碗的,可能不再是护工,而是机器人。
斯坦福大学爆火的Mobile ALOHA项目,已经演示了在真实厨房里炒菜。虽然现在它还很笨重,但它证明了技术路径是通的。
05
写在最后
具身智能,本质上是把互联网的“云端大脑”,塞进了物理世界的“钢铁躯壳”。
它正在经历从“功能机”到“智能机”的时刻。
当 AI 不仅能生成文本,还能理解物理定律并控制身体时,数字世界和物理世界的界限就被彻底打破了。
对于我们每一个人来说,这不再是“会不会发生”的问题,而是“什么时候普及”的问题。
*本文数据来源:高盛全球投资研究、中国工信部文件、Tesla AI Day披露数据
*本文观点均代表个人,部分素材来源AI,有误请联系删除。