-
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
最后更新: 2025-08-06 23:55:24赵仲夏: 太棒了,之前有听我的老师讲,传统的大源模型是读万卷书,那 world model 或者说具身有点像是行万里路。这样的话最终会发生一些概念,完成一些对现实上的一个对齐,一旦对齐之后将会诞生一个更棒的超级智能。
说完 world model,我们想聊一下强化学习。奚老师觉得强化学习在这次具身智能中扮演一个什么样的角色?您觉得强化学习要如何使用?
奚伟:我是这么想的,大语言模型是一个概率模型,它生成内容,但是并不保证它的准确性。强化学习是一个优化模型,它去把结果根据你的需求进行优化,比如跳舞,在训练过程中都要根据你的目标来进行优化,所以强化学习是一个必要的工具。基本上现在所有的应用都会用到强化学习,但它不是要取代大语言模型,这是相辅相成的,它是大语言模型的一个 building block。我认为,强化学习是必需的。
赵仲夏: 这个非常确定,强化学习是必需的,我很喜欢这个结论。冯博您如何看待强化学习?
冯子勇:首先从强化学习技术发展的历史来先看一下,强化学习并不是现在才有,过去已经一直在,只是过去大家发现强化时学习,像这个阿巴狗这样的,它只能存在于仿真环境里,譬如说像游戏。
过去我认为叫小模型,就是它只能上 RL 的时候,需要大量的数据去train,就像我们以前做小模型就是我要标很多很多的数据,只训那一个任务,在这个上面也是一样的,当有一个很好的预训练,相当于我的知识,我的逻辑,我的所有东西都已经学得差不多了,最后才来激活他,来激发他新的这些,或者说在原来这些潜力下面去组织一些新的能力。这是这两个的范式一点点不一样。
RL 还是很重要,但 RL 里面还有一个最重要reward,就是做过 RL 的同事或者说研究人员都知道 reward 非常难调。那在具身里面 reward 怎么办?我们看到有的公司比如Dana是设计了一个不错的reward,那我觉得在这个方面应该也是非常有搞头,就是大家应该多去想想 reward 怎么搞。
赵仲夏: 说到 Daya ,勉诺,是你们投的公司对不对啊?要不要给我们介绍一下 Dana 在做什么?或者您如何看待强化学习的使用。
陈勉诺:Dyna Robotics也是朝着具身智能的方面去做努力,在不断地收集数据,尝试在真实的场景中构建能够真的走进到这个工业和生活场景中的机器人的这样一家公司。
我说一下对强化学习的理解。因为我原来是做控制学背景出身,对于可能 learning 这个方向没有特别强的概念。后来学到了一个很重要的概念理解,模仿学习可以理解成就是那些只会做习题集的普通学生,然后强化学习是那些做了习题集之后他能够去解更难问题的优秀学生。所以其实强化学习在机器人领域我觉得是一个必然很重要的发展路径。
比如 DeepSeek R1 那篇文章发出来之后,大家就看到如果你有比较大的base model ,在上面加上 RL 之后,那它其实就能够带来很强的智能的泛化性,这个理解也很简单,就像普通一个班级,同学们都做了很不错的习题练习之后,里边有一些极度聪明的同学,你给他一个 reward 奖励,给他一道更难的题这样一个目标函数,然后他就能在这里边去形成自己新的解题思路。
所以我们认为在机器人领域也是一样的,只不过可能今天在机器人领域,或者在具身智能领域,现在还没有很好的 base model,所以大家普遍在于数据采集,然后去建立 base model 的状态。所以RL重要吗?我觉得未来RL非常非常重要。
还有一个路径大家也可以去看,原来我们看四足狗的这种形态,在我创业的时候,那个时候在 2018 年左右,四足狗整个步态稳定性其实是比较差的。但今天四足狗整个的步态非常像狗,这里面其实就是采集了大量的狗的真实数据,之前像腾讯的RoboticsX实验室有一段时间专门采集狗的运动动态数据,动捕做了很多动态数据,把动捕的数据放到机器人里面去 train 它的RL model,然后让它可以去实现。
只不过locomotion这种运动学更容易实现,它不需要非常高精度的控制,所以我们今天看到 RL+locomotion其实在场景中更容易实现。可能下一步具身智能要解决问题就是RL+manipulation操作层面上。但操作是一个更复杂任务,你需要去定义这个任务到底是什么,它具备一定的复杂性,以及你要解决有一个能够在数字世界里边去建立的仿真环境,因为RL本身是需要有真实数据在仿真环境下跑最终得到一个有效的模型,然后再把模型返回到真机的场景下去实现结果的这样一个过程。这可能是今天我们要面临的一个挑战,也是今天所有的具身智能的公司大家在去解决的问题。大家可能普遍去构建仿真环境,去采集真机数据,构建仿真数据,然后仿真数据去Train一个还不错的 base model,把真实数据去放进来,然后定一个有效的任务目标函数,再让它能够在真实环境里面去解决。
另外一个我也挺认同今天具身智能是一个更复杂的场景任务,因为它跟物理世界进行交互,所以它的目标函数更难去定义。我们都知道RL里边最重要的是reward function的建立,其实构建Reward Function是很难的一件事情。比如说我们今天看到大语言模型RL在什么样的场景下是最有效?它在 coding 和math层面上很容易实现,因为这个目标函数非常容易定义。但跟物理世界的任务怎么样去有效定义这是一个今天还没有被完全定论的问题,也是我经常跟具身智能行业的学者和业界人士探讨的问题。什么样的任务体系是今天能够被定义为一个Benchmark,我们能够让把它作为一个很重要的任务评测集,能让具身智能系统在里边去不断地追求它的目标极致。
今天可能大家有一些概念,比如叠衣服任务。今天具身智能公司一个最重要的 demo 就是叠衣服,为什么叠衣服会成为一个重要的案例?因为它有几个层面,第一个它有翻折的复杂性,第二个它是跟柔性物体接触,这都是是重要的Benchmark点,但今天坦白来说还没有一个很有效的Benchmark ,也意味着 RL 在这个阶段还没有得到大范围的使用,但我认为它在未来,尤其当我们建立了有效的 base model,会像 DeepSeek R1 那样,有一天能够绽放出巨大的光彩,而且我认为是必经之路。
赵仲夏: 您说这个让我想到了一个好玩的概念叫 BA base model,有点像是人的顿悟,因为我们讲智能涌现是顿悟时刻,然后 RL 有点像佛祖的点化,但是佛祖只能点化一个有慧根的模型。所以我们现在相当于行业或者研究一直在做数据采集,也是为了先训一个聪明的有慧根的 base model,然后等待 RL 点化,我觉得这个很有意思。
然后我们再聊一些更宽点的问题,大家觉得如何看待具身智能和通用人工智能?具身智能是通用人工智能的必由之路吗?来,要不奚老师您来跟我们讲一下?
奚伟:具身智能和通用人工智能具有相关性,但完全是两个不同的东西。具身智能一定是要和物理世界发生关系的,要通过传感器去对物理世界进行建模,再去通过决策操纵你的机构,然后发生关系。但通用人工智能是对我们所有的知识规则的一个一个总结,它能形成一个有效的一个个推理,更多的是在一个抽象层面的能力,它并不一定需要一个具身载体,所以我认为通用人工智能是对具身智能能力的一个巨大的提升,它应该是一个 building block,人工智能可以去赋能的一个技术,它可以赋能不同的,包括机器人。美的也在提家电机器人化,也是把要把家电作为人工智能载体,结合在家电里边放的一些传感器,可以变成具身智能家电这样的一个新物种。
我觉得这些东西都需要感知能力、逻辑推理和决策能力,包括一些动运和操作的能力。所以我认为通用人工智能是具身智能下一阶段能够发光发热的一个巨大的动力。
赵仲夏: 好的,谢谢奚老师。冯老师,您是如何看待具身智能和通用人物智能的关系的呢?
冯子勇:我也觉得是这样的,通用人工智能这个词,不同的单位有不同的解释方式,有些人认为只要大语言模型到了一个非常好的时刻,它就是通用人工智能。但有些认为,还是要跟这个世界包含在一起才叫通用人工智能。
在我看来,刚才奚老师也说了,通用人工智能肯定能帮助具身智能更好地提升,更好落地,更好发展。如果我们本身就是在这个世界里面的,这个世界的实践也能提升我们自己的智能能力,那有没有可能我们现在还没看到,因为我们都在用大语言模型的能力,还没有反馈给大语言模型。如果有一天,能够做到物理的反馈,能给大语言模型带来新的知识,这时候这两个是不矛盾的,甚至可能是一体的。
奚伟: 互为补充。
赵仲夏: 对,勉诺你如何看待AGI?
陈勉诺: 我是这么理解,具身智能是通用人工智能的一个子集,通用人工智能追求的是在世界实现一个完全的智能,完全智能不可能只有数字世界里进化,它也需要跟物理世界进行有效交互,而且它的这个终极目标是,我们经常说的知行合一,也就是不单单要知道知识,也能够能行动出来。
如果把知行合一当做人类的最高标准,那对于整个通用人工AGI来说,不单单只有智能的上限,还要需要有action,需要有行动,所以我认为具身智能是通用人工智能的一个子集,而且是一个非常关键的环节,只有有了具身智能,才能跟物理世界进行交互,才能感知物理世界,采集物理世界的数据,将物理世界的规律在智能的领域里进一步地提升,形成一个双向的闭环。所以我认为具身智能、大语言模型、多模态模型其实都是整个 AGI 或者通用人工智能的子集。
赵仲夏:好的,那我们进行下一个话题。中国的人工智能和具身智能产业将走向何方?跟产业落地相关的。Mario,你最近有投资哪些具身或者机器人的企业?在调研走访的时候有没有看到一些跟行业落地有关的趋势。
陈勉诺: 我们投了几家目前比较活跃的几家公司,一个是刚刚有提到的 Daya Robotics,第二个是方舟无限,做机械臂的,还有做灵巧手和电机的舞肌科技,以及之前投的像非夕机器人, 优艾智和都在往具身智能这个方向形态去转变。
在落地场景方面,坦白来说,今天还属于在技术发展的前端,甚至我认为今天具身智能的时代都远还没有到 GPT 3 时刻。所以今天大家去谈落地有点为之过早,甚至可能还有很多的弯路,大家还要去摸索、去探索,可能要给产业更多的时间和空间,让大家在技术方向做更多的探索。
在落地层面上,我觉得应该核心关注几个点。第一,因为我原来是做SLAM做移动机器人的创业者,在那一波里边有哪些场景是解决不了的?我理解就是手脑协同、 manipulation 和智能泛发性带来的操作泛化性这个层面上的任务。比如今天工厂的流水线上,那些没有被传统机械臂和没有被 AGV 去解决场景,都是既有高价又极度需要人力的场景,这种场景其实是需要今天的具身智能很容易落地可能的场景。
另一个点是应用场景具备一定的复杂性,比如 Dyna Robotics,他们在解决的场景是美国的一些餐厅后厨,后厨环境复杂性强,同时美国人力成本比较高,这种情况下需要有个机器人去解决。
我觉得今天可能真的有效的是找到一个智能程度相对比较低、人力成本非常高的场景,去替代人工成本,会是一些行之有效的场景。
-
本文仅代表作者个人观点。
- 责任编辑: 张志峰 
-
鸿蒙世界,正上演“寒武纪大爆发”
2025-08-06 14:45 观网财经-科创 -
大疆、影石相互“偷家”!天空与全景的边界瓦解
2025-08-06 13:43 观网财经-消费 -
华夏人寿被吊销业务许可证,原董事长、董秘被终身禁业
2025-08-06 19:42 -
李宁还能回到过去吗?
2025-08-06 10:27 观网财经-消费 -
AI+中国,能否带来东方文艺的复兴?
2025-08-06 10:06 2025世界人工智能大会 -
苹果在华营收两年来首次恢复增长,库克:感谢“国补”
2025-08-06 07:25 观网财经-科创 -
普惠AI照进现实:云知声如何让技术“越山海”
2025-08-06 23:31 观网财经-科创 -
东鹏半年报:净利增加37.22%,半年营收首次破百亿
2025-08-06 23:19 观网财经-消费 -
特朗普对巴西关税新政引发连锁反应:美国农产品期货市场受冲击
2025-08-06 23:18 观网财经-消费 -
香港法院要求宗馥莉保全18亿美元信托,三子女证据曝光
2025-08-06 20:58 -
2025 WAIC丨加速规模化应用,与施耐德电气共赢“AI+产业”时代机遇
2025-08-06 19:40 2025世界人工智能大会 -
独家对话:用平扫CT筛查早期癌症,阿里医疗AI正让国人夺回“主动权”
2025-08-06 19:38 2025世界人工智能大会 -
尊湃窃取华为芯片技术案宣判:14人被判刑,总罚金超千万
2025-08-06 19:27 观网财经-科创 -
香港高等法院:宗馥莉暂不得提取汇丰账户资产
2025-08-06 19:25 -
谷歌回应恢复中国大陆服务传闻:截图不是来自Google
2025-08-06 19:10 -
计划以29.32亿港元进行私有化,大悦城地产或将退市
2025-08-06 16:43 -
66折,李嘉诚家族一项目大降价
2025-08-06 15:01 观网财经-房产 -
“立秋奶茶大战”在即,美团、饿了么、京东集体声明
2025-08-06 12:39 观网财经-互联网 -
梦百合、左右家居跨界开酒店,醉翁之意还是“卖货”?
2025-08-06 12:05 -
英伟达回应被约谈;我国大模型个人用户超31亿;微软市值破4万亿美元
2025-08-06 08:53 观网财经-互联网
相关推荐 -
特朗普开始关税倒计时,“印高官仍要访俄” 评论 7“紧盯中国登月节点”,NASA又急了 评论 142印度向特朗普叫屈:土耳其也买啊,怎么不罚 评论 165窃取华为秘密被重判,中国芯没有捷径 评论 316“美国无法强迫中国,还送了份‘大而美’的礼物” 评论 100最新闻 Hot