据OpenAI官网介绍,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的、细节准确的复杂场景,该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的“存在方式”。业界普遍认为,Sora的面世将对AI产业链带来历史性的变革机遇。
机构人士指出,以Sora为代表的文生视频模型极大缩短了AGI(通用人工智能)时代到来的时间。随着多模态大模型逐步升级,算力需求将呈现指数级增长,下游应用有望百花齐放,推动应用领域生产力价值释放。
那么,Sora的横空出世将为人工智能产业链带来怎样的机遇和发展?如何看待中美之间在人工智能领域的发展差异?为此,《围炉谈文创》栏目本期邀请到三位来自不同细分领域、分别活跃于成都、深圳、北京的技术大咖分享他们最新的感受与观察。
咕咚CEO申波:Sora的本质是一个“世界模拟器” 中国公司会在AI硬件和应用方面快速发展
作为中国最大运动社交和赛事服务平台――咕咚的创始人,申波是一名不折不扣的“技术狂人”,崇拜“MySQL之父”Monty和马斯克,关注全球最新的技术及产品趋势。
他的办公桌上总是堆满了各种技术类书籍,从Stable Diffusion,到DeepMind,再到ChatGPT,他都能信手拈来。他在朋友圈笑言,“以后退休了,得找个面朝大海春暖花开的大院子coding(编程)。”
谈及Sora对行业的影响,申波表示,“OpenAI开发的文本到视频生成器Sora,有潜力显著影响依赖视觉内容的多个行业,特别是影视娱乐、教育和营销行业。”
就运动健康应用领域而言,申波告诉《每日经济新闻》记者,“Sora能够以新颖的方式吸引用户,将锻炼描述或健康提示转化为引人入胜、易于跟随的视频。这将通过提供动态的互动内容来增强用户体验,比单纯的文本或静态图像更有效地激励和指导用户。”
相比较Runway和Pika等类似产品,申波指出,“与早期主要关注生成短片的模型不同,Sora旨在生产长达一分钟的高细节视频,并致力于在视频长度上保持连贯性。此外,由于Sora能创造更引人入胜、更全面的内容,这可能使其在提供更丰富用户内容方面具有区别于其他工具的优势。本质上说Sora是一个‘世界模拟器’ 而不仅仅是文本生成视频工具。”
谈及近年中美在人工智能领域不同的发展特点和重点,申波向每经记者分析道,“美国公司如OpenAI和Google DeepMind在生成式AI技术方面取得了重大进展,例如ChatGPT和DALL-E,这些技术引领了市场和技术趋势。中国则在应用研发和商业化方面显示出新的进展,特别是AI在教育、健康、零售和安全等领域的应用。中美之间的主要差异可能在于创新的焦点、市场应用的速度和政策环境。”
目前,中国在生成式AI领域有哪些走在比较前面的应用场景和玩家?申波表示,“国内无论是大模型还是应用方面,都快速涌现出了一系列的创业公司,如百川智能,当然巨头也参与其中了,包括百度、阿里、腾讯等等。而且近日OPPO和魅族都发布了ALL IN AI的战略,全力开发推广AI手机。所以我觉得中国公司会在AI硬件和应用方面快速发展并引领行业,在大模型基座以及中文大模型上面缩小并赶上美国的水平。”
安克创新CIO龚银:Sora加速实现“千人千面”但也会稀释掉用户注意力
长期活跃于粤港澳大湾区的龚银(Neil),曾任OnePlus平台中心副总裁、创始团队高管,现任安克创新CIO,他对分布式系统、高性能高可靠系统、云计算等领域保持着持续关注和实践。
谈及Sora的横空出世,龚银表示,“这将给游戏、短视频、影视、广告和元宇宙等高品质视频内容制作的行业带来直接冲击。”
在龚银看来,Sora与此前市面上的同类产品相比拥有诸多优势。“Sora生成内容的质量更好,(尤其是在)复杂场景、角色表情、复杂的镜头运动等方面稳定性、一致性更好,三维空间的连贯性比较好,没有断层或抽离感。视频长度进一步扩展,支持60S逼真视频,基本可商用,可以生成类似游戏等互动类数字内容,想象空间更广泛。”
从技术架构上看,龚银分析道,“Transformer架构具备更好的学习性和扩展性,涌现能力更强。而runway和pika更多还是依靠图像转帧方式,连续性还未得到验证。我们在2023年就一直尝试runnway来制作和生成视频,但其稳定、一致性和可商用能力其实还是很弱,Sora的出现一下子解决了这些问题。”
就消费电子行业来说,龚银直言,“特别是我们涉及全球各区域电商平台或线上平台,依靠大量广告和内容来获取流量和打造品牌,Sora的出现对我们行业的影响利弊各半,一方面,内容的制作成本大幅下降,效率得到了质的提升,同时也有希望实现千人千面的内容;另一方面,大量内容的出现会稀释掉用户的注意力,品牌想通过内容获取用户心智的难度更大了。”
事实上,从ChatGPT开启生成式AI时代,到国内一众玩家开启“百模大战”,再到今天Sora的横空出世,中美在人工智能领域呈现出较大的发展差异。
“从已有的结果上看,美国在创新能力、创新环境、创新能力工程化和市场化等各方面能力目前还是全球最强的,”龚银表示。
龚银还指出,“国内模仿能力强,业务应用层场景丰富。在具备基础设施和能力的前提下,在AI应用层面会有一些创新和突破。另外,国内擅长在已有创新的基础上集中资源办大事,需要的是一些时间。”
谈及国内比较成熟的生成式AI应用场景和玩家时,龚银认为,“(目前)还没有看到特别成功的,一些品牌和电商其实都在摸索。在营销领域,大部分还是在文生图、文生文等方面做一些场景的尝试,比如运营活动的文案和图片、产品场景图、多语言翻译、多语言自动生成等;在研发领域,大部分是在尝试代码辅助编写,类似github和copilot。应用最多的还是在客服领域,自动服务机器人,大部分公司都有在尝试,还有一些类似AI Agent之类的应用场景。”
原贝壳金服小微企业生态CTO史海峰:Sora惊艳之处在于对场景时空更强的理解和推测能力
史海峰曾任贝壳金服小微企业生态CTO、饿了么北京研发中心总经理,也曾在神州数码(000034)、亚信联创长期从事电信行业业务支撑系统集成工作,参与中国移动、中国联通(600050)多个项目,具有丰富的大型业务系统研发实施经验。
在20余年的工作历程中,史海峰以架构师的身份活跃于IT圈,曾获腾讯云最具价值专家(TVP),开设了《IT民工闲话》公众号,常自侃“大叔级 IT 民工”。
史海峰指出,最新发布的Sora其惊艳之处不仅仅在于时间,还包括空间的延伸、视角的变换,需要“脑补”更多细节,体现了对场景时空更强的理解和推测能力。
“从文字生成文字,再到文字生成图片是一个飞跃,从图片到生成目前的无声视频(或者从单帧视频到多帧),似乎还挺顺理成章。什么时候通过音频能够把空间进一步体现,那会比现在更加惊艳,另一个维度则是实时交互。再往后大概又是AR、VR、元宇宙了。”
“作为提升生产力、降低成本门槛的工具,从C端和B端分别看的话,对UGC和PGC都会产生影响,到底有多大冲击还很难判断。在纯CG动画方面,可能大幅降低制作成本。如果支持对视频的加工再创作,在短视频、影视制作方面也可能带来新的模式,会涉及到影视、广告、社交、教育、游戏等行业。(同时)也会给反诈、维护知识产权带来更高要求,”史海峰告诉记者。
谈及中美在人工智能领域的发展差异,史海峰表示,“在AI时代,芯片是基座,数据是生产要素,是训练AI的养料,而最重要的是人才。(人工智能)竞争门槛高、迭代快,在达到技术上限前,不适合弯道超车或者体现后发优势,我们必须要追赶,并脚踏实地。”
本文作者系天府文创云记者谢陶,转载合作相关可搜索“天府文创云”公众号。
每日经济新闻