中国版Sora级视频大模型发布,打造“视频-Native”超级应用
Sora席卷全球之后,视频生成方向热火朝天,不断迎来新的进展。
近日,在奇绩创坛路演日上,世界模型公司“极佳科技”联合清华大学自动化系正式发布中国首个“超长时长、高性价比、端侧可用”的Sora级视频生成大模型“视界一粟YiSu”,引起社会各界广泛的反响和关注。
目前市面上大部分的视频生成应用,都是基于3-5秒的视频生成模型,应用和体验上限制比较明显。极佳科技CEO黄冠认为:“只有视频生成做到模型原生16秒(以及更长),同时保持自然的运动和表现力,做应用才有价值”。
简单来看,“视界一粟YiSu”拥有模型原生的16秒超长时长,并可生成至1分钟以上;同时还拥有超大运动、超强表现力、懂物理世界等众多优势;更重要的是,YiSu模型成本更低、速度更快、端侧可用;极佳科技希望通过YiSu模型强大的性能和极致的性价比,更快实现长视频生成的大规模产品应用。
一个确定的事实是,年初Sora的爆火,以及今天“视界一粟YiSu”的推出,正式标志着视频生成和世界模型方向正在进入快速爆发的Scaling Law时代。
Sora的爆火,让DiT(Diffusion Transformer,Sora的重要技术基础之一)受到了业内极大的关注,很多公司和项目在Sora之后都开始复现DiT路线。
极佳科技和清华大学研究人员在视频生成技术路线上有着深入的积累和独特的理解,在autoregressive、Masked Token、DiT、UNet等不同路线方面均拥有丰富的经验。此前,团队提出的WorldDreamer,是全球第一次以Transformer和LLM(Masked Token路线)为中心的视频生成工作。
“视界一粟 YiSu”基于团队自研的视频生成大模型技术,并没有止步于DiT,而是融合LLM和扩散模型的自研架构,结合各种路线的优势,在多模态融合、训练效率、推理效率、模型效果等方面达到极致的优化,打造视频生成的最佳方案。
在极佳科技看来,过去两年我们看到了多个“语言-Native”和“图像-Native”的爆款应用,已经彻底改变人们的工作生活很多方面,下一个就轮到视频方向了。而通用智能时代的目前阶段,领先的模型就是爆款的应用。
基于“视界一粟YiSu”的惊艳效果,极佳科技正在打造“AI-Native”和“视频-Native”的爆款应用,希望给广大用户带来AI时代不一样的体验和价值。
面向通用智能时代,全球都在期待“AI-Native”的超级应用。语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,展现了通用智能的曙光;图像生成模型展现了强大的生成、娱乐和艺术能力。
而在目前人们已经已经习惯视频内容的时代,文本和图像的内容似乎仍然对于广大用户的价值仍然比较有限。视频生成可能是打破这一局面的重要技术突破,“视频-Native”的爆款应用更有可能走向超级应用,拥有无限的想象空间。
极佳科技CEO黄冠认为:“超级应用对于通用智能时代至关重要。AI 1.0时代,依靠的是场景驱动的数据闭环,打造数据飞轮,不断优化模型和应用效果。进入通用智能的AI 2.0时代,最重要的是基础模型和超级应用两条腿走路,打造智能闭环,形成智能飞轮。极佳科技希望通过基础模型和超级应用形成的智能闭环飞轮,加速走向通用智能时代。”
OpenAI把Sora叫做“世界模拟器”,从视频生成走向世界模型,会成为通用智能的新一代数据引擎,对于自动驾驶、通用机器人等物理世界的通用智能具有极其关键的作用。
世界模型在数据生成、闭环仿真、端到端方案等方面都具有重要的价值。YiSu也展示了基于视频生成的同款架构,用于自动驾驶和机器人场景世界模型的效果。
极佳科技在世界模型和数据引擎的技术和应用上都保持行业领先。
2023年9月,极佳科技推出了全球首个真实世界驱动的自动驾驶世界模型DriveDreamer,早于Wayve的GAIA-1;
2024年4月,极佳科技进一步更新了DriveDreamer-2,性能保持业内领先;
2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,并且审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。
基于业内领先的世界模型技术,极佳科技拿到业内首个世界模型商业化定点和落地,签约多家主机厂和大客户,服务自动驾驶、机器人等具身智能客户几十余家。极佳科技希望通过世界模型,携手行业一起,加速走向物理世界通用智能。
“视界一粟YiSu”的惊艳亮相,离不开其世界级人工智能综合团队的支持。极佳科技成立于2023年,目前已经获得多家一线财务投资机构、产业投资机构的投资,同时获得了行业客户的广泛认可。
极佳科CEO黄冠是清华大学自动化系博士,拥有超过十年、全球领先的AI技术经验,拥有微软、三星、地平线等知名公司算法经历,多次带领百人算法团队,还拥有AI、自动驾驶、大模型等方向的连续创业经验;
首席科学家朱政是中科院自动化所博士,清华大学自动化系博士后,发表AI方向顶级论文超过50篇,引用超过1万次;
产品负责人孙韶言是中科大博士,曾担任阿里云总监,地平线产品线总经理;
算法负责人陈新泽是中科院硕士,多次获得AI比赛世界冠军,拥有丰富的算法研发、应用和infra经验;
工程负责人毛继明是百度赢彻T10级别架构师,曾担任Apollo仿真和工程负责人,拥有超过16年的数据、工程和分布式架构经验。
团队拥有超过十年的人工智能技术研发经验,在人工智能方向拥有世界级的研发能力,发表AI顶级论文200余篇,在过去十年的人工智能技术浪潮中取得了全球领先的成绩,曾获得目标跟踪全球最权威赛事VOT世界冠军、人脸识别全球最权威赛事NIST-FRVT世界冠军、图像物体识别全球最权威赛事COCO世界冠军、自动驾驶全球最权威评测nuScenes世界冠军,发布SiamRPN、WebFace260M、BEVDet、DriveDreamer等视觉和AI方向知名或开创性技术成果。
同时,团队还拥有深入的大规模产业落地经验,曾参与研发中国第一款嵌入式人工智能芯片研发和应用,负责中国规模最大的智慧城市系统研发和应用,负责中国规模最大的数据闭环平台研发和应用,负责Apollo仿真平台研发和应用。
通用智能时代,领先的技术能力和规模化的产业落地经验,缺一不可,互为支撑。极佳科技核心团队基于研究、工程、产品、商业以及创业等方面的顶尖综合积累,打造基础模型和超级应用的智能闭环飞轮。
未来,极佳科技希望通过更多的技术和产品创新,为用户和客户提供更多的价值,加速走向通用智能时代。
(封面图来源:极佳科技)