开yun体育app官方下载入口 抢鲜实测腾讯最新AI视频模型!超写实质感,还会自动切镜头|新榜洞察
一只戴红领巾的企鹅闯入火热的AI视频战场。
刚刚,腾讯混元发布了大型AI视频生成模型。
腾讯混元文圣视频官网:
AI文声视频功能已在腾讯元宝上线。您可以点击“腾讯元宝App-AI应用-AI视频”申请试用。企业客户可以通过腾讯云提供服务接入,同时开放API供内测应用。
腾讯元宝AI视频页面
官方数据显示,与国内外多个顶级模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量、画面质量等多个维度均领先,在人物、人物等场景中表现尤为出色。人工场所。
更夸张的是,混元视频生成模型的参数数量达到了130亿个。腾讯直接对外开源,包括模型权重、推理代码、模型算法等完整模型。企业和个人开发者可以在Hugging Face和Github上免费使用。并开发生态插件。
这是目前最大的开源视频模型。市面上免费的AI视频产品很少,而腾讯的就太奢侈了。
。
近几个月来,国内外闭源AI视频模型开始流行。此时腾讯的开源模式效果如何?
《AI新榜》参与了混源视频近期的小范围内测。已上线的文胜视频默认生成时间为5秒。支持中英文双语输入。您可以选择多种视频尺寸和清晰度,并且它具有所有基本功能。一切都在那里。
腾讯混元文声视频网页:
根据我们的测试用例,混元视频模型擅长视觉风格的真实感,对提示词的理解和遵从性极佳,并且具有较大的运动幅度。画质处于AI视频产品前列。
尤其令人惊喜的是,混源视频原生支持多镜头切换,可以在保持拍摄对象不变的情况下,在5秒内自动切换镜头。
基于混源视频,我们生成了这段AI猫泡温泉的短视频。对你来说可爱吗?
以下是我们关于混元文声视频更详细的实际测试案例。欢迎在评论区与我们分享您的看法。
附:关注“AI新榜”公众号,后台回复关键词“混元视频”即可获取我们完整的测试文档。
混元文圣视频实测五种能力
我们对混元文声视频从视觉风格、语义理解、动作表现、镜头移动和文本生成五个方面进行了实际测试。
1.视觉风格
我们先来看看混元面对多样化风格提示词的适应能力和表现力。官方预设的风格包括写实、动画、电影、黑白、赛博朋克等。
一个小女孩正在弹钢琴,她身后挂着星星和灯笼。温馨的家庭客厅里充满了圣诞装饰。镜头从小女孩的背后平移到侧面,特写和中景交替,光线柔和温暖,童话般的梦境。
乍一看,这个例子看起来非常像现实生活中的拍摄场景。除了“星光”的位置不对之外,整体的光影和氛围都非常真实和温暖。小女孩的手指没有任何变形,镜头移动也非常流畅。
圣诞老人驾着雪橇在白雪皑皑的街道上滑行。街道两旁都是用乐高积木搭建的房子。屋顶上覆盖着厚厚的积雪。全景拍摄,镜头稍微放大,乐高动画的风格,有着乐高积木独特的质感。场景充满童趣和幻想云开·全站app中心手机版,展现了一个充满欢乐和奇妙的圣诞节。
乐高动画风格的圣诞创意街头场景非常生动,就连雪橇的动作也模拟了乐高积木的坚硬感。
卓别林在流水线上忙活,双手握着扳手不断拧紧螺丝,以黑白电影风格拍摄,无声电影,老片,中景,静态高品质黑白
黑白风格的画面也具有胶片特有的颗粒感,卓别林的形象也比较准确。然而,现实中无法生成其他名人或IP图像以避免侵权,例如马斯克和Hellokitty。
总体来说,浑源在呈现特定的艺术风格和元素的同时,基本能够保持画面的整体美感与和谐,但整体效果仍然是写实的。
2. 语义理解
Vincent视频中最关键的部分就是提示词,它不仅关系到生成视频的视觉一致性,也决定了最终生成的内容是否能够满足创作者预期的表达。
一般来说,建议您输入具体的、结构化的提示词,包括拍摄对象特征、场景描述、情感氛围、灯光使用、摄像机运动控制等。您可以参考以下格式:
用法一:提示词=主题+场景+动作
用法2:提示词=主题(主题描述)+场景(场景描述)+动作(动作描述)+(镜头语言)+(氛围描述)+(风格表达)
用法3:提示词=主体+场景+动作+(风格表达)+(氛围描述)+(摄像机移动方式)+(光线)+(风景)
如果你懒得想提示词,我们打造了一个优化AI视频提示词的代理。有需要的玩家可以使用腾讯元宝。
据腾讯介绍,混元视频模型在技术上引入了多模态大模型作为文本编码器,可以更好地理解包括表情符号在内的复杂文本。提示词一两百字不是问题,但目前5秒不建议写这么长。
混元本身还提供了两种优化提示词的模式:提示增强和导演模式。
提示增强旨在增强视频生成模型对用户意图的理解,以更准确地解释所提供的指令。
导演模式增强了对构图、灯光和摄像机运动等方面的描述,往往会产生具有更高视觉质量的视频,但这种增强有时可能会导致一些语义细节的丢失。所以大家要根据自己的具体需求来选择。
例如,在这个小女孩抱着发光熊的例子中,导演模式打开,它会自动添加前后移动相机的效果。泰迪熊的光效柔和自然,小女孩的动作逻辑也非常合理。
一个小女孩在舒适的卧室里,穿着睡衣,抱着一只发光的泰迪熊,梦幻般的童话风格。
下面两个提示词本身比较详细,并没有开启导演模式。
完全由巧克力制成的圣诞树,有不同深浅的棕色和奶油色,顶部有小巧克力星,表面光滑,质地细腻。创意的广告风格,逼真的3D效果,鲜艳的色彩和强烈的对比,凸显巧克力的质感和细节。背景颜色为纯白色,可以有轻微的阴影效果,镜头围绕巧克力圣诞树缓慢旋转,进行360度展示。
日本漫画风格,动画,一个10岁左右的中国小女孩,一头黑色短发,脸蛋可爱,穿着红色连衣裙和白色运动鞋。她坐在时光机器里,脸上露出兴奋和好奇的表情。时光机启动后,开始加速,穿越时空隧道。隧道内的光线和色彩不断变化,营造出流动的光影效果。摄像机从侧面缓缓跟随时间机器,捕捉时间机器启动和加速的全过程。场景充满未来和奇幻的氛围,传达出冒险和探索的感觉。
可以看到,混元对复杂的提示词理解得相当好,关键信息也显示出来,但有些细节略有缺失或不一致。
3、运动控制
AI能否根据提示词准确再现主体和场景的动作特征,是否具有真实、自然、流畅的肢体表达,是目前AI生成视频模型的一大难题。同时,运动表现也是衡量画面连贯性的重要标准。细腻流畅的动态细节通常可以大大增强画面的真实感。
动态元素往往涉及主体的移动、场景的变化以及整体节奏的控制。这些都需要AI生成模型具有高度的物理理解能力和动态呈现图片细节的能力。
一位戴着墨镜的老绅士拄着拐杖缓缓走在欧洲小镇的街道上,街道两旁都是咖啡馆和书店。气氛怀旧而忧郁,固定镜头,自然光,晨光照射在地面上。
浑源基本上准确地呈现了一个老人行走的简单动作,包括视频的主题“戴墨镜的绅士”、场景背景的欧洲小镇街道以及两侧的咖啡馆和书店。与提示词中的描述一致。老人拄着拐杖行走的步伐基本协调流畅,气氛确实有一种怀旧和忧郁的感觉。
一只可爱的泰迪熊毛绒公仔在桌子上像人一样跳舞,左右手挥动,脚交替跳跃,然后转身跳起来。在写实风格中,泰迪熊没有穿衣服,脖子上系着一条黑色小领带。
混元文声视频可以根据“[主题描述]+[动作描述]+[然后,过一会儿等连接词]+[动作描述2]”的提示词格式生成两个连续的动作。
可以看到,这段视频中熊的动作非常流畅、连贯。除转身外,提示词中提及的所有动作均已完成,且运动过程中主体与背景保持一致。
4. 镜子运动
自然流畅的镜头语言,如滑动、平移、升降等,以及丝滑的镜头剪切,是展现视频场景的空间感和叙事层次感的关键。
混元本身也有“丝滑镜头移动”模式。根据我们的实际测量,开启该模式可以使镜头移动更加平滑,消除镜头移动中的僵硬或不自然的过渡。
我们还在提示词中添加了摄像机角度、移动方式、场景切换的描述,来看看生成效果。
一位身穿连帽衫的涂鸦艺术家拿着喷漆罐创作壁画。城市里一条昏暗的小巷里,墙上布满了色彩鲜艳的涂鸦。艺术家迅速挥动手臂喷漆,颜色逐渐覆盖了墙壁。街头文化风格,色彩浓烈,热情奔放充满创意开yun体育官网入口登录体育,镜头快速切入,捕捉喷画的交替动作和画面细节。特写镜头展示了喷漆和颜料,中镜头展示了完整的绘画。
正如原生支持切割镜头一样,混源准确地呈现了喷漆和镜头切换的动作,喷漆和涂鸦的细节也更加细腻。
一辆复古敞篷车在滨海公路上快速行驶,一侧是蔚蓝的大海,另一侧是悬崖。司机戴着圆形墨镜,围着丝巾,背景景色逐渐被抛在身后,从近景切换到远景,展现出海岸线的雄伟,清晨的阳光,带着柔和的金色光芒。
这个例子更令人震惊。它自然地从驾驶员的第一视角切换到驾驶员的特写。女人脸上的光影变化很有质感,但墨镜上的图像是固定的,不太真实。 。
通常,图胜视频可以更好地保持主体的一致性,但需要先生成批量图片,然后再生成视频。现在混源对文盛视频升级了转场和剪切功能,简化了操作流程开yun体育官网入口登录app,可以进一步提高视频创作效率。 。
5. 文本生成
与AI图像模型相比,目前AI视频模型的文本生成性能普遍不够准确。它可以生成较短的英文字母和数字,但生成的中文仍然无法识别。
比如混元可以生成英文“AIGC”,同时也可以显示彩色灯光效果,但可控性一般,需要多次尝试。
镜头缓缓拉近,漆黑的墙壁上的一个灯箱闪烁了几下,然后亮起了“AIGC”的文字,散发出赛博朋克风格的七彩光芒。
也可以生成数字。我们尝试用草莓来组成数字“6”。虽然草莓下落的动作仍然有点问题,但数字的形状是准确的。
用高速镜头拍摄,很多草莓被抛到空中,然后镜头转为俯拍,草莓落在桌子上形成数字“6”,黑色背景,美食摄影,明亮。
总体来说,腾讯混元AI视频表现出了相当不错的综合能力。中英文提示词生成效果类似,但也存在一些共性的局限性,比如细节处理失真、可控性有待提高、水墨等视觉效果等。风格不够多样化,肢体动作和镜头切换可能没有意义。
以上是我们测试的一些案例。关注“AI新榜”公众号,后台回复关键词“混元视频”即可获取我们完整的测试文档。
腾讯欲拓展AI视频生态
毫无疑问,腾讯混元的进入,让AI视频生成领域的竞争进一步升级。
从技术角度来看,混源视频基于与Sora类似的DiT架构,并在架构设计上做了很多升级。混源视频还微调了多项特殊能力,包括画质、高动态、艺术镜头、手写、转场、连续动作等,未来还将持续迭代,增强可控性。
未来提及国内外AI视频产品榜单,混元一定是其中的第一名。
更重要的是,腾讯选择走开源道路,准备拓展AI视频生态。
要知道,相比图像生成社区,视频生成社区的生态还没有形成气候。一方面,图像生成领域有很多非常成熟的底层模型,在开源环境下催生了活跃、繁荣的开发者社区。独立开发者基于基础模具和各种Lora可以达到1+1>2的效果。
大多数主流视频生成模型都是闭源的。腾讯表示,开源视频模式与闭源模式之间存在巨大差距。不仅算力和数据存在巨大差距,而且领先机构闭门造车,与社区脱节。
今年以来,腾讯混元系列机型的开源速度不断加快。此前,腾讯混元已开源其文声文、文声图以及3D生成大模型。
如今,混源视频也完全开源了。基于腾讯混元系列的开源模型,开发者和企业可以直接使用它进行推理,无需从头开始训练。他们还可以基于腾讯混元系列打造专属应用和服务,可以节省大量人力和时间。计算能力加快产业创新步伐。
在应用场景方面,腾讯的混元视频生成模式已经开始在工业级商业场景中发挥作用,比如广告、动画制作、创意视频生成等场景。 《人民日报》、央视网、新华社等多家媒体率先使用浑源视频制作创意视频,包括《如此美丽的乡村》、《山水之间》等多部作品。
据腾讯介绍,混源视频未来还将推出图文视频模型、视频配音模型、驱动2D照片数字人等新能力,让未来的AI内容创作更加高效。
我要评论