神马影视神马影视

中国首 个Sora级 视频大模型Vidu发布 生数科技与清华联合推出

中国首 个Sora级 视频大模型Vidu发布 生数科技与清华联合推出

4月27日,在中关村论坛未来人工智能(néng)先锋论坛(tán)上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该(gāi)模型采用(yòng)团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生(shēng)成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想(xiǎng)象力,具备多镜头(tóu)生成、时空(kōng)一致性高等特(tè)点。Vidu是自Sora发布之后(hòu)全球率先取得重大突破的视频(pín)大模型(xíng),性能全面对标国际顶尖水(shuǐ)平,并在加速(sù)迭代提升中。

与Sora一(yī)致,Vidu能够(gòu)根据提供的文本描(miáo)述直接(jiē)生成长达16秒(miǎo)的(de)高质量视频。除了在时长方面的突破外,Vidu在视频效果(guǒ)方面实现显著提升,主 要体现在(zài)几个方(fāng)面:第(dì)一、模拟真实物理世界:能够生(shēng)成(chéng)细节复杂的场景,且符合真(zhēn)实的物理(lǐ)规律,例(lì)如合 理(lǐ)的(de)光影效果、细腻的人物表(biǎo)情等(d生活需要色彩ěng);第二、具有丰富想象力:能够生成真实世界不存在(zài)的虚(xū)构(gòu)画面,创造出具有深度和生活需要色彩复杂性的超现实主义内容(róng);第三、多镜(jìng)头(tóu)语言:能够生成复杂的动态镜头,不(bù)再局限于简(jiǎn)单的推、拉、移等固定镜(jìng)头,而是能够围(wéi)绕统一主体在一段画面里就实(shí)现远(yuǎn)景、近景、中(zhōng)景、特写等不(bù)同镜头(tóu)的切换,包括能直接生成长镜头、追焦、转场等效果,给视(shì)频注入镜头语言(yán);第四(sì)、时空一致性高:在16秒的时长 上保持连贯流畅,随着镜(jìng)头的(de)移动,人物(wù)和场景在时间、空间(jiān)中能够保持一(yī)致;第五、理解(jiě)中(zhōng)国元素:能够生成特有的中国(guó)元素(sù),例(lì)如熊猫、龙(lóng)等。

值得一提的是,短片中的片段都 是(shì)从头到尾连续生(shēng)成(chéng),没有明显的插帧现象,从这(zhè)种“一镜到底”的表现(xiàn)能够推测出,Vidu采用的是(shì)“一步到位(wèi)”的生成(chéng)方式,与Sora一样,文本到视频的转换是直接且连(lián)续的,在底层算法实现上是基于单一模型完全端到端生成,不(bù)涉及中间的插帧和其他多步骤的(de)处(chù)理。 

Vidu的快(kuài)速突破源(yuán)自(zì)于团队在贝叶斯机器学习和多模态(tài)大模型的长期积累和多项原创性成果。其核心技术生活需要色彩U-ViT架构由(yóu)团队于2022年9月提出,早于Sora采用的(de)DiT架构,是全球首个Diffusion与Transformer融合的(de)架构,完全由团队自主研发。

2023年3月(yuè),团 队开源全球首个基于U-ViT架构的多模态扩(kuò)散大模型UniDiffuser,在全球范围内率先完(wán)成融(róng)合架构的大(dà)规模(mó)可扩展性(Scaling Law)验证。UniDiffuser是在大规模图(tú)文数(shù)据集LAION-5B上训练出的(de)近10亿参数量(liàng)模型,支持图文(wén)模态间的任意生成和转换(huàn)。在架构上,UniDiffuser比同样 DiT架构的(de)Stable Diffusion 3领先了一年。

自今年2月Sora发布推(tuī)出后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验(yàn),在短短两个(gè)月进一步突破长视频表示与处(chù)理关(guān)键技术,研发推出Vidu视(shì)频大(dà)模型,显著(zhù)提升视频的连贯性 与动态性。

从图文任务的统一到融合(hé)视频能力,作为通用视觉模型,Vidu能够支持生(shēng)成更加多样(yàng)化、更长时长的视频内容,同时面向未(wèi)来,灵活架(jià)构也将能够兼容(róng)更广泛的模态,进一步拓展多模态通用(yòng)能(néng)力的边界。

Vidu的问世,不仅是U-ViT融合架构在(zài)大规模(mó)视觉任(rèn)务(wù)中的(de)又(yòu)一 次成功验证,也代表了生数科技(jì)在多模(mó)态原生大模型领域的持续创新能力和领先性。同(tóng)时生数科技表示,大(dà)模型的突破是(shì)一个多维度、跨领域的综(zōng)合(hé)性过(guò)程,需 要技术与产业应用的深度融合。生数科技正(zhèng)式(shì)推出“Vidu大模型合(hé)作(zuò)伙伴计划(huà)”,希望产业链上下游企业(yè)、研究机构(gòu)能一起加入,共同(tóng)构建合(hé)作(zuò)生态。

校对:廖胜(shèng)超

未经允许不得转载:神马影视 生活需要色彩

评论

5+2=