让AI用视觉意识世界，豆包宣布并开源VideoWorld视

栏目：媒体新闻发布时间：2025-02-12 08:36

[db:摘要]...

2月10日，豆包年夜模子团队结合北京交通年夜学、中国迷信技巧年夜学，宣布了视频天生模子——VideoWorld，而且已开源代码与模子。本文援用地点：与Sora、DALL-E等主流多模态模子差别，VideoWorld开拓了新的门路，攻破对言语模子的依附，实现仅靠“视觉信息”认知天下。就像幼儿能在不依附言语的情形下懂得实在天下一样，VideoWorld经由过程阅读视频数据，让呆板控制推理、计划跟决议等庞杂才能。在仅有300M参数目时，它就已展示出可不雅的机能，到达专业5段9x9围棋程度，还能在多种情况中履行呆板人义务。在模子构建方面，团队构建了视频围棋对战跟视频呆板人模仿操控两个试验情况。练习时，模子经由过程“不雅看”包括大批视频演示数据的离线数据集停止进修。其架构采取朴实自回归模子，包括VQ-VAE编码器-解码器跟自回归Transformer架构。不外，研讨初期发明视频序列常识发掘效力低于文本情势，为此团队引入潜伏静态模子（LDM）。LDM够将帧间视觉变更紧缩为紧凑的潜伏编码，晋升常识发掘效力，还能保存丰盛视觉信息，让VideoWorld能够捕获视觉序列中的临时依附关联，从而更好地停止临时推理跟计划。经由过程过细剖析，团队发明LDM不只能建模练习集的数据形式，还能辅助模子在测试时停止前向计划，而且天生因果相干的编码。只管VideoWorld在围棋跟模仿呆板人操控场景中表示出色，但团队也苏醒地意识到，在实在天下的利用中，它还面对高品质视频天生跟多情况泛化等挑衅。不外，团队已明白将来将聚焦这些困难，努力于让视频天生模子成为实在天下的通用常识进修器。当下，DeepSeek掀起的行业变更海潮连续发酵，不只在人工智能工业链内激发连锁反映，还向其余行业浸透。它的火爆并非源于机能上风，而是凭仗翻新性技巧道路，以超低算力本钱实现超预期后果输出，为行业开展带来全新思绪。独一无二，此次豆包宣布的VideoWorld视觉模子同样开拓了全新技巧门路，攻破对言语模子的依附，仅靠视觉信息就让呆板实现对天下的认知并控制庞杂才能，无望进一步夯实了国产年夜模子在多模态范畴的技巧气力。

上一篇：老式游戏大全下载量高的老式游戏排行榜

下一篇：没有了