中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月27日，在中关村论坛未来人工智能(néng)先锋论坛(tán)上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该(gāi)模型采用(yòng)团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生(shēng)成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想(xiǎng)象力，具备多镜头(tóu)生成、时空(kōng)一致性高等特(tè)点。Vidu是自Sora发布之后(hòu)全球率先取得重大突破的视频(pín)大模型(xíng)，性能全面对标国际顶尖水(shuǐ)平，并在加速(sù)迭代提升中。

与Sora一(yī)致，Vidu能够(gòu)根据提供的文本描(miáo)述直接(jiē)生成长达16秒(miǎo)的(de)高质量视频。除了在时长方面的突破外，Vidu在视频效果(guǒ)方面实现显著提升，主要体现在(zài)几个方(fāng)面：第(dì)一、模拟真实物理世界：能够生(shēng)成(chéng)细节复杂的场景，且符合真(zhēn)实的物理(lǐ)规律，例(lì)如合理(lǐ)的(de)光影效果、细腻的人物表(biǎo)情等(d生活需要色彩ěng)；第二、具有丰富想象力：能够生成真实世界不存在(zài)的虚(xū)构(gòu)画面，创造出具有深度和生活需要色彩复杂性的超现实主义内容(róng)；第三、多镜(jìng)头(tóu)语言：能够生成复杂的动态镜头，不(bù)再局限于简(jiǎn)单的推、拉、移等固定镜(jìng)头，而是能够围(wéi)绕统一主体在一段画面里就实(shí)现远(yuǎn)景、近景、中(zhōng)景、特写等不(bù)同镜头(tóu)的切换，包括能直接生成长镜头、追焦、转场等效果，给视(shì)频注入镜头语言(yán)；第四(sì)、时空一致性高：在16秒的时长上保持连贯流畅，随着镜(jìng)头的(de)移动，人物(wù)和场景在时间、空间(jiān)中能够保持一(yī)致；第五、理解(jiě)中(zhōng)国元素：能够生成特有的中国(guó)元素(sù)，例(lì)如熊猫、龙(lóng)等。

值得一提的是，短片中的片段都是(shì)从头到尾连续生(shēng)成(chéng)，没有明显的插帧现象，从这(zhè)种“一镜到底”的表现(xiàn)能够推测出，Vidu采用的是(shì)“一步到位(wèi)”的生成(chéng)方式，与Sora一样，文本到视频的转换是直接且连(lián)续的，在底层算法实现上是基于单一模型完全端到端生成，不(bù)涉及中间的插帧和其他多步骤的(de)处(chù)理。

Vidu的快(kuài)速突破源(yuán)自(zì)于团队在贝叶斯机器学习和多模态(tài)大模型的长期积累和多项原创性成果。其核心技术生活需要色彩U-ViT架构由(yóu)团队于2022年9月提出，早于Sora采用的(de)DiT架构，是全球首个Diffusion与Transformer融合的(de)架构，完全由团队自主研发。

2023年3月(yuè)，团队开源全球首个基于U-ViT架构的多模态扩(kuò)散大模型UniDiffuser，在全球范围内率先完(wán)成融(róng)合架构的大(dà)规模(mó)可扩展性（Scaling Law）验证。UniDiffuser是在大规模图(tú)文数(shù)据集LAION-5B上训练出的(de)近10亿参数量(liàng)模型，支持图文(wén)模态间的任意生成和转换(huàn)。在架构上，UniDiffuser比同样DiT架构的(de)Stable Diffusion 3领先了一年。

自今年2月Sora发布推(tuī)出后，团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验(yàn)，在短短两个(gè)月进一步突破长视频表示与处(chù)理关(guān)键技术，研发推出Vidu视(shì)频大(dà)模型，显著(zhù)提升视频的连贯性与动态性。

从图文任务的统一到融合(hé)视频能力，作为通用视觉模型，Vidu能够支持生(shēng)成更加多样(yàng)化、更长时长的视频内容，同时面向未(wèi)来，灵活架(jià)构也将能够兼容(róng)更广泛的模态，进一步拓展多模态通用(yòng)能(néng)力的边界。

Vidu的问世，不仅是U-ViT融合架构在(zài)大规模(mó)视觉任(rèn)务(wù)中的(de)又(yòu)一次成功验证，也代表了生数科技(jì)在多模(mó)态原生大模型领域的持续创新能力和领先性。同(tóng)时生数科技表示，大(dà)模型的突破是(shì)一个多维度、跨领域的综(zōng)合(hé)性过(guò)程，需要技术与产业应用的深度融合。生数科技正(zhèng)式(shì)推出“Vidu大模型合(hé)作(zuò)伙伴计划(huà)”，希望产业链上下游企业(yè)、研究机构(gòu)能一起加入，共同(tóng)构建合(hé)作(zuò)生态。

校对：廖胜(shèng)超

未经允许不得转载：神马影视生活需要色彩