(资料图片)
北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。作为横跨具身智能领域产学研的专家,董豪拆解了当前模仿学习、强化学习、仿真数据集等主流技术路线的瓶颈,并提出全新横向二维Scaling Law框架,统一解释世界模型、生成式数据增强、人示教数据转化等前沿方案的底层逻辑,为家用、通用人形机器人落地指明技术演进方向。
以下为报告实录:
我至今仍清晰地记得 AlphaGo 团队做分享的场景 —— 当时我就在伦敦,UCL 离我的住处很近。那场演讲给我留下了极为深刻的震撼,也让我对 AI 技术的演进逻辑有了更本质的思考。
AlphaGo 的成功,清晰地展现了 AI 能力跃升的第一套经典范式:先模仿,后强化。它首先通过海量人类棋谱进行监督学习,本质上就是模仿人类棋手的落子决策。但这种纯模仿学习有一个天然的天花板:模型的能力永远无法超越训练数据中人类的最高水平。
为了突破这个瓶颈,AlphaGo 引入了自对弈强化学习:让两个经过预训练的模型相互对弈,通过胜负结果产生明确的反馈信号。在这个过程中,模型不再受限于人类经验,能够自主探索出人类从未想到过的策略,最终实现了对人类顶尖棋手的超越。
这一 “模仿 - 强化” 的技术演进路径,在后来的 ChatGPT 身上得到了完美复刻。ChatGPT 首先基于互联网海量文本数据进行大规模预训练,这一阶段的核心依然是模仿学习 —— 学习人类语言的表达方式和知识体系。而它之所以能从一个 “会说话的模型” 变成一个 “会好好说话的模型”,关键在于引入了基于人类反馈的强化学习(RLHF):让模型对同一个问题生成多个回答,由人类标注员对不同回答的质量进行打分,再将这些人类偏好作为回报信号来微调模型。
内容搜集整理于网络,不代表本站同意文章中的说法或者描述。文中陈述文字和内容未经本站证实,其全部或者部分内容、文字的真实性、完整性、及时性本站不做任何保证或者承诺,并且本站对内容资料不承担任何法律责任,请读者自行甄别。如因文章内容、版权和其他问题侵犯了您的合法权益请联系邮箱:5 146 761 13 @qq.com 进行删除处理,谢谢合作!