让AI用视觉意识世界,豆包宣布并开源VideoWorld视
栏目:媒体新闻 发布时间:2025-02-12 08:36
[db:摘要]...
2月10日,豆包年夜模子团队结合北京交通年夜学、中国迷信技巧年夜学,宣布了视频天生模子——VideoWorld,而且已开源代码与模子。本文援用地点:与Sora、DALL-E等主流多模态模子差别,VideoWorld开拓了新的门路,攻破对言语模子的依附,实现仅靠“视觉信息”认知天下。就像幼儿能在不依附言语的情形下懂得实在天下一样,VideoWorld经由过程阅读视频数据,让呆板控制推理、计划跟决议等庞杂才能。在仅有300M参数目时,它就已展示出可不雅的机能,到达专业5段9x9围棋程度,还能在多种情况中履行呆板人义务。在模子构建方面,团队构建了视频围棋对战跟视频呆板人模仿操控两个试验情况。练习时,模子经由过程“不雅看”包括大批视频演示数据的离线数据集停止进修。其架构采取朴实自回归模子,包括VQ-VAE编码器-解码器跟自回归Transformer架构。不外,研讨初期发明视频序列常识发掘效力低于文本情势,为此团队引入潜伏静态模子(LDM)。LDM够将帧间视觉变更紧缩为紧凑的潜伏编码,晋升常识发掘效力,还能保存丰盛视觉信息,让VideoWorld能够捕获视觉序列中的临时依附关联,从而更好地停止临时推理跟计划。经由过程过细剖析,团队发明LDM不只能建模练习集的数据形式,还能辅助模子在测试时停止前向计划,而且天生因果相干的编码。只管VideoWorld在围棋跟模仿呆板人操控场景中表示出色,但团队也苏醒地意识到,在实在天下的利用中,它还面对高品质视频天生跟多情况泛化等挑衅。不外,团队已明白将来将聚焦这些困难,努力于让视频天生模子成为实在天下的通用常识进修器。当下,DeepSeek掀起的行业变更海潮连续发酵,不只在人工智能工业链内激发连锁反映,还向其余行业浸透。它的火爆并非源于机能上风,而是凭仗翻新性技巧道路,以超低算力本钱实现超预期后果输出,为行业开展带来全新思绪。独一无二,此次豆包宣布的VideoWorld视觉模子同样开拓了全新技巧门路,攻破对言语模子的依附,仅靠视觉信息就让呆板实现对天下的认知并控制庞杂才能,无望进一步夯实了国产年夜模子在多模态范畴的技巧气力。