视频模型Sora发布后,国内公司急于加入市场,而国内的视频模型进入了加速阶段。
在过去的六个月中,AI生成的视频处于间歇性的状态。
Vidu是中国第一个自我开发的视频模型,随后由Byte和推出了视频生成模型,许多国内制造商不时吸引了外界的关注。
最近,另一个国内视频Big 加入了战斗,的“ Ke Ling”视频生成Big 的官方网站已正式启动。
21日, 的大型模型发布了一个重大更新:图像生成视频功能正式打开,支持将静态图像转换为5秒视频。用户可以通过提示单词文本控制图像中对象的运动;同时,启动了视频写功能,支持一键连续写作和多次重写生成的视频,并且可以生成大约3分钟的视频。
与主要显示视频的各种公司发布的视频模型相比, 这次揭幕了这次的效果,而且还邀请了在 's 的应用程序上测试经验。
根据的说法, Big 是由 AI团队开发的。它采用了Sora的类似技术路线,并结合了多种自我开发的技术创新。它生成的视频的分辨率最长为2分钟(帧速率),支持自由纵横比。
此外,该官员还声称,模型可以产生大型且合理的动作,并使其符合客观的运动定律。
在官方的视频示例中,宇航员在月球上奔跑,随着相机的逐渐上升,宇航员的步态和阴影可以保持合理和合适。
几乎同时,宣布将在7月底推出新的Moki产品。该产品基于 的大型模型的视频生成功能,该模型可以帮助用户生成AI简短的视频。
但是,与大型语言模型的涌入相比,还有一些观点,视频模型较慢,更强大。
为什么会发生这种情况?
大公司不感兴趣吗?
同时,在大型语言模型的最后一轮比赛中,和的存在较低。
在视频模型曲目中,这两家公司的最大优势是什么?
关于这一点,北京商业每日记者Wei Wei和进行了交谈,这只猴子认为:
一家仍在“大学入学考试”的大型公司不会直接攻击“博士后研究员”。
制作视频时,形成PPT并不是一堆图片。大型制造商并不急于在这方面努力,而且他们不是很实用,只是肌肉表现。
毕竟,视频生成并不是要将一堆AI图纸连接到动画片中。
除了考虑更多细节,例如一致的图像,一致的描述,灯光和阴影细分,情节板性能等,它还具有了解情节并重新创造能力的能力。
所有这些都需要在多个垂直领域进行深入学习,例如视频结构,内容分析,拍摄技巧和叙事技术。
难以通过数据积累和用户错误校正来聊天,绘画或专门研究国际象棋等来完成困难。
即使是电影和电视领域的大师也经常失败,并且可以想象仍在“大学入学考试阶段”中制作人工智能电影的困难。
但是,即使这只是一场演出,和也需要展示他们的肌肉。
无论是还是,视频大型模型曲目中最大的优势是,他们拥有丰富的“学习材料”,可以使人工智能深入学习。
依靠这些“学习材料”,可以避免某些版权问题,并且通过在视频字段中多年的内容积累,垂直细分和标签的积累,大型模型可以更好地“检索”知识,并为他们提供算法设计中某些专业视频素质。
但仅此而已,在技术中的人工智能算法中仍然缺乏原始的积累。
此外,即使视频模型已经成熟,也很难在电影和电视领域取得重大突破。
无论是简短的戏剧,广告,长时间的视频还是电影,都将倒入“大片特殊效果”。
但是,最终吸引的观众是满足的(从编剧到音乐和演员表演技巧)。
这些是大规模商业货币化的关键。
我认为视频模型可能更容易在动画领域找到一些商机。
作者张·舒勒( ),《人日专栏作家》和《人们的帖子和电信》,宗京媒体智囊团的专家,高级行业评论员

工作时间:8:00-18:00
电子邮件
扫码二维码
获取最新动态
