您的位置: 首页 > 科技频道

Sora冲击波

出处:北京商报 作者:杨月涵 网编:产经中心 2024-02-18

2023年春节,AI圈的绝对主角是属于ChatGPT的,2024年春节,OpenAI再次一颗“深水炸弹”,毫无预兆发布的文生视频模型Sora,让AI圈又一次“一夜变天”。

一是时长,二是逼真程度,Sora实现了两个老大难问题的同时解决,以至于外界毫不吝啬地将其形容为“颠覆性”的存在。360创始人周鸿祎说,Sora的发布意味着AGI的(通用人工智能)实现将从十年缩短到一年。

Sora或者说是OpenAI,正酝酿并引领一场新的巨变。

OpenAI官网

又现王炸

没有任何预兆和消息的提前透露,近日,OpenAI突然发布了首个文生视频模型Sora,逼真程度瞬间“引爆”市场。

“一句话生成视频”正无限接近于现实。在OpenAI的展示中,只需要一段简单的文本指令,Sora就可以直接输出最长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头以及富有情感的多个角色。

一位行走在东京街道上时尚女性的视频几乎成了Sora的“代表作”。这段一分钟的视频里,从主要人物到背景人物,从近景到远景,细致、逼真的画面和流畅转换的镜头几乎以假乱真。

OpenAI介绍称,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。

国泰君安研报指出,Sora具有三大突出亮点,一是60秒长视频,Sora可以保持视频主体与背景的高度流畅性与稳定性。二是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅。三是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。

对于文生视频的技术问题,北京市社会科学院副研究员王鹏对北京商报记者提到,这首先涉及到算法的复杂性。文生视频技术不仅涉及文本到图像的转换,还需要处理时序信息和音频同步。这需要复杂的深度学习模型,如生成对抗网络(GANs)和变分自编码器(VAEs)等,以捕捉视频中的动态变化和细节。

此外,训练文生视频模型需要大量的带标注数据,包括文本描述和对应的视频片段。这样的数据集难以获取和标注,尤其是对于特定领域的应用。数据的多样性和质量也直接影响模型的生成能力。如果训练数据缺乏多样性或存在偏见,生成的视频可能会缺乏创意或包含不准确的信息。

不过OpenAI也承认,目前Sora还存在着一定的短板,比如无法准确地模拟复杂场景的物理原理,且无法理解这其中的因果关系,呈现在视频上,可能就会出现一个人咬了一口饼干后,饼干并没有咬痕的结果。

AGI加速

“通过文字描述的方式来生成前后有关联的连续视觉内容的时代来临了”。在接受北京商报记者采访时,新壹科技CTO张华伟说,从Sora的效果看,稳定性已经很高了,这也意味着视频内容的生产效率大大提升了。

新壹科技是目前国内在AIGC领域布局最为全面、技术较为成熟的人工智能公司之一,2023年7月,壹科技发布国内首款专注于视频领域的AIGC模型“新壹视频大模型”。

中国企业资本联盟副理事长柏文喜对北京商报记者提到,Sora有望颠覆影视、游戏、广告等多个行业。随着Sora等文生视频技术的成熟,各行各业都可以利用其生成高质量的视频内容,提高内容创作效率,降低制作成本。

“从长期来看,这种颠覆效应将更加明显,可能导致传统视频制作人员的需求减少,进而推动整个行业的变革”。柏文喜称。

不过中国信息协会常务理事、国研新经济研究院创始院长朱克力提到,这种颠覆还需要一定的时间,因为Sora尽管在技术上取得了突破,但在实际应用中还需要解决许多问题,如模型的稳定性、可扩展性和计算效率等。此外,各行业对于新技术的接受和应用也需要一个过程。

但Sora真正的“星辰大海”,很可能早就超过了视频的范畴。就像周鸿祎在评价Sora时说的,“我认为AGI很快会实现,就这几年的事儿了”。

在接受北京商报记者采访时,天使投资人、资深人工智能的郭涛提到,与文本和图像相比,视频不仅包含了静态图像的空间信息,还加入了时间维度,要求模型能够理解和预测随时间变化的动态场景。

这意味着Sora需要处理更加丰富的数据类型,包括物体的运动、光影变化、遮挡关系等,这些都是AGI所需解决的核心问题。 

朱克力也表示,文生文和文生图主要关注的是静态信息的转换和表达,而文生视频则需要在连续的时间序列中保持场景的一致性、物体的动态关系和光影的变化,这要求模型具备更强的时空建模能力和更高的计算复杂度。因此,文生视频技术的成功对于推动AGI的发展具有更为显著的作用。

事实上,自从ChatGPT的横空出世,AI圈便再次燃起了通用人工智能的浪潮,而ChatGPT也被视为通用人工智能的起点和强人工智能的拐点。周鸿祎说,大语言模型最牛的点在于,他不是填空机,而是能完整地理解这个世界的知识。

而Sora对真实世界的理解能力也是AGI得以实现最重要的因素之一。按照周鸿祎的说法,OpenAI利用其大语言模型的优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,跳出2D的范围模拟真实的物理世界。

“所以Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”周鸿祎说。

理想与现实

据悉,目前Sora并未对公众全面开放,仅邀请部分测试者进行体验。造成这一情况的原因,是Sora所引发的关于滥用视频生成技术所带来的安全性担忧,而这也几乎可以看做是Sora想要“做大做强”必然需要迈过的一道坎。

王鹏总结出了文生视频的三大难点,分别是真实性问题、创意和版权问题以及可解释性和透明度问题。

具体而言,随着文生视频技术的发展,生成的视频越来越难以与真实视频区分。这可能引发一系列的伦理和社会问题,如虚假信息的传播、隐私侵犯等。

而AI生成的视频是否应该受到版权保护?如果AI使用了人类艺术家的作品作为训练数据,那么生成的视频是否侵犯了原作的版权?这些问题目前还没有明确的答案。

此外,AI模型,包括文生视频模型,往往缺乏可解释性和透明度。这意味着当模型出现错误或偏见时,很难找出原因并进行纠正。这增加了模型在实际应用中的风险。

但这些并不足以阻挡文生视频的发展。聚焦国内,有媒体不完全统计数据显示,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。

而在2023年6月,万兴科技就曾公告,基于AI文生视频以及3D数字人等技术开发了数字人营销短视频创作工具,面向跨境营销和电商领域用户,通过AIGC与虚拟数字人技术快速生成“真人”主播,解决传统电商营销视频实拍模式下的外籍模特数量少、多语言翻译配音难度高、制作周期长、成本居高不下等问题。

周鸿祎说:“OpenAI的CEO阿尔特曼是个营销大师,他知道怎样掌握节奏。”但更值得警惕的是,Sora的营销“心机”背后,OpenAI隐藏的实力。就像周鸿祎说的:“他们手里的武器并没有全拿出来,这样看来,中国跟美国的AI差距可能还在加大。”

2023年是国内大模型竞争白热化的一年。《北京市人工智能行业大模型创新应用白皮书(2023年)》显示,我国10亿参数规模以上的大模型已超过200个。而从2023年下半年开始,大模型竞争焦点也开始从底层模型的搭建转移向行业的落地应用。

工业和信息化部赛迪研究公布的生成式人工智能领域的相关数据显示,2023年我国生成式人工智能的企业采用率已达15%,市场规模约为14.4万亿元。在制造业、零售业、电信行业和医疗健康等四大行业的生成式人工智能技术的采用率均实现较快增长。

不过从整体而言,国内在AI领域的发展仍稍显逊色,未出现代表性应用的同时,行业发展也出现“降温”迹象。CB insights报告显示,去年,中国AI领域投融资数量约为232笔,同比下降38%,融资总额约为20亿美元,同比下降70%。

有分析师解读,这意味着,热钱可能集中地涌向了少数团队背景和技术实力强大的公司。从资源分配的角度而言,后来者想要再挤进模型层创业,空间已经不多。

“不少国内的大模型企业仍然面临缺少自主创新的问题,如果不能知其然,必然不能知其所以然”。在接受北京商报记者采访时,一位业内人士如此说道。

北京商报记者 杨月涵

右侧广告

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号