中经记者 曲忠芳 上海报道
“人工智能(AI)是一种途径,其本质是要构建一种真实的智能。所谓真实的智能,就是像人这个智能体一样,能够跟真实的世界进行自主的交互,这是智能的终极目标。”在“2025世界人工智能大会”(WAIC)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受《中国经营报》记者提问时指出。
谈及大模型的演进趋势,林达华认为,在向AGI(通用人工智能)发展的道路下,当下发展最快的语言模型是比较容易切入的第一步,而在真实场景中,AI需要处理的信息不止语言,最终要实现AGI不可缺少的是多模态的能力。
本次WAIC期间,商汤正式发布了日日新V6.5 “开悟”世界模型,与此同时还发布了“悟能”具身智能平台。
《中国经营报》:大模型发展至今,你觉得语言模型和多模态模型是应该分开来做,还是去做多模态的融合?
林达华:多模态发展早期叫计算机视觉,2023—2024年多模态模型开始将不同模态数据一起训练,形成跨模态理解能力。2024年下半年,谷歌Gemini模型提出原生多模态概念,形成更深入的跨模态建模能力。如今,多模态已从理解延伸到思考层面,经历了从简单嫁接、融合理解到思考的拓展过程。
实际上,商汤是国内较早开展多模态融合的企业。我们在去年年中发布“日日新”5.0后就立项研究,花了几个月终于得出了答案。当有效融合训练后,多模态模型在纯语言任务中表现优于纯语言模型,单独语言模型没必要了。从“日日新”6.0到最新的6.5都是多模态模型,在纯语言、纯文本任务性能达到先进水平。
在“日日新”6.0前,商汤打通融合训练流程,发现预训练中段融合效率最高。“日日新”6.5实现融合思考,通过图文交错生成新图形启发思考得出结论。商汤是国内最早开展多模态融合且技术成熟的企业。从海外大厂的动态看,多模态大模型成行业趋势,国内厂商预计今年下半年跟进,商汤起步更早、技术更成熟。
《中国经营报》:商汤在大模型浪潮中看到了哪些新的机会?
林达华:我从几个角度阐述商汤对AI技术的思考。首先,ChatGPT让全世界看到AI技术上了新台阶,它带来了巨大变革浪潮,有重塑世界、生产生活的可能性,商汤想抓住这一浪潮创造更高影响。其次,此次浪潮核心在于,过去AI 1.0时代的深度学习模型只能做专门工作,而通用AI模型自主性强、通用性高,能完成复杂工作,且交互方式更自然,这是与上一时代AI不同的能力发展。
有了这些能力,就能重塑未来产业,比如一是软件构建。写代码的终极目标是造软件,编程从传统方式转变到高级语言后,能写程序的人增多,软件和互联网产业兴起,但写程序仍需专业培训。未来,软件构建将更便捷,普通人无须掌握专业语言,提出需求就能造软件,这实现了能力解放和平权,会改变产业格局。例如,拍电影从专业化工作,因AI变成全民可参与的事。商汤认为,AI能颠覆办公模式,让办公更高效,这是变革生产力的机会,未来办公软件和软件构造方式都将改变。
二是交互。过去交互方式不自然,未来交互无处不在,智能硬件能像伙伴一样贴心回应需求。商汤的交互模型与硬件结合,能重塑未来交互方式。这些能力提升带来未来模式变革,是商汤的机会。
《中国经营报》:商汤进军具身智能领域的考量是什么?
林达华:多模态发展要经过三个重要发展阶段,前两个阶段——语言与多模态融合、多模态思考过程都在数字空间进行信息处理和判断,最终要影响现实世界,需实现数字与物理空间连接,这是到达AGI的重要一步。
从技术发展脉络和商汤自身积累看,商汤多年从事计算机视觉,构建了多模态模型与技术,在与硬件公司合作及智能驾驶中积累了模型规划、控制技术体系。所以,商汤具备让智能体理解空间、规划行动的技术基础,此次提升具身智能平台,旨在支持其生态化、智能化发展。同时,具身智能市场快速成长,商汤希望捕捉商业机会,其多模态大脑、具身智能与世界模型积累相结合,有占据市场重要位置的优势。
商汤做世界模型,结合多模态基座积累与端到端闭环反馈,实现最终的对齐。商汤将世界模型用于自动驾驶模块训练已取得成功,绝影自动驾驶模型就是在世界模型的输入下迭代而来。世界模型结合海量多模态训练数据积累与真实闭环牵引,不会与现实脱节,用其牵引具身智能体和自动驾驶训练,效率比仅依靠真机数据快很多。
《中国经营报》:大模型和具身智能都需要持续的投入,商汤如何平衡长期布局与短期回报?
林达华:我认为最重要的是研发要与最终商业愿景对齐,这也是内部强调的重点。科研布局有众多事可做,选择与判断模型产生闭环价值需突破的关键点有关。因此,要通过商业落地校正科研和研究布局航向,使其在商业上形成支撑与突破。比如商汤不做奥赛金牌相关,因其无法商业落地,而是追求可泛化推理,要求业务和教育上用到的数学做到 100 分。我们用业务倒推对技术演进和投入判断点的思考,让基础模型投入支撑业务,这是关键闭环逻辑。另外,具身智能和基础模型并非完全分割资源,具身智能世界模型建立在多模态积累基础上,此前在自动驾驶和多模态大模型方面的投入构建了技术体系,所以额外投入没那么大。
(编辑:张靖超 审核:李正豪 校对:翟军)