南昌左傳實業(yè)有限公司
移動電話:13687088555(張經(jīng)理)
客服QQ:7113911 43955769
傳真:0791-86452423
聯(lián)系電話:0791-86452423
客服信箱:43955769@qq.com
文章目錄
一、Sora模型的發(fā)布
二、Sora模型生成視頻的原理
文本提示生成內(nèi)容
空間時間補(bǔ)丁
視頻生成過程
步驟1:視頻壓縮網(wǎng)絡(luò)
步驟2:空間時間潛在補(bǔ)丁提取
步驟3:視頻生成的Transformer模型
三、Sora模型技術(shù)特點與創(chuàng)新點
Sora支持多種視頻格式
Sora改進(jìn)的視頻構(gòu)圖和框架
語言理解與視頻生成
多模態(tài)輸入處理
一、Sora模型的發(fā)布
Sora模型是OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是叫做“世界模擬器” ),Sora模型于2024年2月15日(美國當(dāng)?shù)貢r間)正式對外發(fā)布。
Sora模型實現(xiàn)了輸入文本生成高質(zhì)量的視頻功能,Sora對于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能,再一次的震撼到我們。
對于我們這些普通人如何了解Sora呢?我們可以想象一下,你在瀏覽一本展示世界各地名勝的圖片集,里面收錄了來自不同國家的風(fēng)景照片。有的展示了一望無際的海景,有的呈現(xiàn)了狹窄的小巷,還有的描繪了夜晚燈火輝煌的城市景觀。盡管這些照片在內(nèi)容和風(fēng)格上各有千秋,但你能夠輕而易舉地識別每一張照片所代表的地點和情感,因為你的大腦能夠?qū)⑦@些不同的視覺信息整合并理解。
與此類似,Sora面對的挑戰(zhàn)在于處理和分析來自全球各地、由不同設(shè)備拍攝的數(shù)以百萬計的圖片和視頻。這些視覺數(shù)據(jù)在分辨率、寬高比、色彩深度等方面存在差異。為了使Sora能夠像人類大腦那樣理解和生成如此豐富的視覺內(nèi)容,OpenAI開發(fā)了一套方法,將這些不同類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示形式。
二、Sora模型生成視頻的原理
首先,Sora利用一種稱為“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖像或視頻數(shù)據(jù)轉(zhuǎn)換成一個更簡潔的、低維度的表達(dá)方式。這個過程類似于將不同尺寸和分辨率的圖片進(jìn)行“標(biāo)準(zhǔn)化”,以便于進(jìn)行后續(xù)的處理和存儲。這種轉(zhuǎn)換并不是要摒棄原始數(shù)據(jù)的特點,而是將其轉(zhuǎn)換成一種對Sora來說更易于理解和操作的形態(tài)。
然后,Sora將這些壓縮過的數(shù)據(jù)進(jìn)一步細(xì)分為所謂的“空間時間補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁可以被視作視覺內(nèi)容的基本單元,就像我們之前提到的相冊中的每一張照片都可以被拆分成包含獨特景觀、顏色和紋理的小塊。這樣,無論原始視頻的長度、分辨率或風(fēng)格如何,Sora都能將它們轉(zhuǎn)化為一種一致的格式。
通過這種方式,Sora能夠在保持原始視覺信息多樣性的同時,將來自不同來源和風(fēng)格的視覺數(shù)據(jù)整合成一種統(tǒng)一的內(nèi)部表達(dá)形式。這就像你在翻閱世界名勝相冊時,盡管照片各不相同,但你依然能夠以相同的方式去理解和欣賞它們。
文本提示生成內(nèi)容
Sora是如何根據(jù)文本提示生成內(nèi)容的。這個過程主要依賴于一種稱為“文本條件化的Diffusion模型”的技術(shù)。為了解釋這個技術(shù)的運作原理,我們可以用一個日常生活的例子來說明:設(shè)想你手中有一本充滿隨意涂鴉的草圖本,起初,本子上滿是隨機(jī)的墨跡,看起來毫無意義。但如果你按照一個特定的主題,比如“花園”,逐漸地去修改和細(xì)化這些墨跡,最終,這些雜亂的線條將逐漸演變成一幅描繪花園的美麗畫面。在這個例子中,你的“特定主題”就是文本提示,而你逐步改善草圖本的過程,就類似于Diffusion模型的工作機(jī)制。
具體到Sora的應(yīng)用,這個過程始于一段與目標(biāo)視頻長度相同但內(nèi)容完全是隨機(jī)噪聲的視頻,可以將其想象成草圖本上的那些無意義的墨跡。然后,Sora根據(jù)給定的文本提示(例如“一只貓坐在窗臺上看日落”)開始“編輯”這段視頻。在這個過程中,Sora利用了從大量視頻和圖片數(shù)據(jù)中學(xué)習(xí)到的知識,以決定如何逐步消除噪聲,將這段噪聲視頻轉(zhuǎn)變?yōu)榻咏谋久枋龅膬?nèi)容。
這個“編輯”過程是通過數(shù)百個連續(xù)的步驟逐漸完成,每一步都使得視頻更接近最終的目標(biāo)。這種方法的一個顯著優(yōu)勢在于其靈活性和創(chuàng)新性:即使是相同的文本提示,通過不同的初始噪聲狀態(tài)或者在轉(zhuǎn)換步驟中進(jìn)行微調(diào),也能夠產(chǎn)生視覺上各具特色、但都與文本提示相契合的視頻內(nèi)容。這就像是多位藝術(shù)家根據(jù)同一主題創(chuàng)作出風(fēng)格迥異的畫作。
利用這種基于文本條件的Diffusion模型,Sora不僅能夠創(chuàng)造出具有極高創(chuàng)意性的視頻和圖像,還能夠確保所生成的內(nèi)容與用戶的文本提示高度吻合。無論是重現(xiàn)真實場景還是構(gòu)建幻想世界,Sora都能夠根據(jù)文本提示“繪制”出令人驚嘆的視覺作品。
空間時間補(bǔ)丁
空間時間補(bǔ)丁:我們可以理解為將視頻或圖片分解成許多小塊或“補(bǔ)丁”,每個小塊都攜帶著一定的時間和空間信息。這種方法的靈感來自于處理靜態(tài)圖片的技術(shù),其中圖片被分割成小塊以便更高效地進(jìn)行分析。在視頻處理的背景下,這個概念被擴(kuò)展到了時間維度上,不僅涉及空間(即圖片的特定區(qū)域),還包括這些區(qū)域隨時間的變化。
為了讓大家更好地理解空間時間補(bǔ)丁是如何運作的,我們可以用一個簡單的日常例子來說明:想象你在觀看一部動畫片。如果我們把這部電影切割成單幀的靜態(tài)畫面,并且把這些畫面進(jìn)一步分割成更小的區(qū)塊(即“補(bǔ)丁”),那么每個小區(qū)塊都會含有畫面的一部分信息。隨著時間的前進(jìn),這些小區(qū)域的信息會隨著角色動作或場景轉(zhuǎn)換而改變,這樣就加入了時間維度上的動態(tài)內(nèi)容。在Sora中,這樣的“空間時間補(bǔ)丁”使得模型能夠更精確地處理視頻內(nèi)容的每一個小部分,并且同時考慮到它們隨時間的變化。
在Sora處理視覺內(nèi)容的流程中,空間時間補(bǔ)丁最初是通過視頻壓縮網(wǎng)絡(luò)生成的。這個網(wǎng)絡(luò)的任務(wù)是將原始視頻數(shù)據(jù)轉(zhuǎn)換成更低的維度表示,也就是由眾多小塊組成的密集網(wǎng)絡(luò)。這些小塊就是我們所稱的“補(bǔ)丁”,每個補(bǔ)丁都攜帶著視頻的一部分空間和時間信息。
生成這些空間時間補(bǔ)丁之后,Sora便可以開始它們的轉(zhuǎn)換過程。利用已經(jīng)預(yù)先訓(xùn)練好的轉(zhuǎn)換器(Transformer模型),Sora能夠分析每個補(bǔ)丁的內(nèi)容,并根據(jù)輸入的文本提示進(jìn)行必要的調(diào)整。例如,如果文本提示是“海邊奔跑的馬兒”,Sora將定位到與“海邊”和“奔跑的馬兒”相關(guān)的補(bǔ)丁,并對它們進(jìn)行相應(yīng)的修改,以創(chuàng)造出與文本提示相符的視頻內(nèi)容。
這種基于空間時間補(bǔ)丁的處理手段具有幾個明顯的優(yōu)點。首先,它使Sora能夠以非常細(xì)致的粒度操作視頻內(nèi)容,因為它可以獨立處理視頻中的每一個小部分。其次,這種方法極大地增強(qiáng)了處理視頻的靈活性,讓Sora能夠生成具有復(fù)雜動態(tài)的高質(zhì)量視頻,這對于傳統(tǒng)的視頻生成技術(shù)來說是一項艱巨的任務(wù)。此外,通過對這些補(bǔ)丁進(jìn)行有效的管理和轉(zhuǎn)換,Sora能夠在保持視頻內(nèi)容連貫性的同時,制作出多種多樣的視覺效果,滿足用戶的多樣化需求。
視頻生成過程
我們將Sora在視頻生成過程分成三個步驟:視頻壓縮網(wǎng)絡(luò)、空間時間潛在補(bǔ)丁提取以及視頻生成的Transformer模型。
步驟1:視頻壓縮網(wǎng)絡(luò)
想象一下,你正在整理一間混亂的房間,你的目標(biāo)是以最少的盒子來收拾所有的物品,并且保證以后能夠迅速找到需要的物品。在這個過程中,你可能會把小物品放入小盒子,然后再把這些小盒子放入更大的箱子。這樣,你就能夠用更少、更有條理的空間來存放同樣數(shù)量的物品。視頻壓縮網(wǎng)絡(luò)的工作原理與此類似。它將視頻內(nèi)容“整理”成一個更加緊湊、高效的形式(即降低維度)。這樣,Sora在處理視頻時能夠更加高效,也能夠保留足夠的信息來重建原始視頻。
步驟2:空間時間潛在補(bǔ)丁提取
繼續(xù)上面的比喻,如果你想詳細(xì)記錄每個盒子里放置了哪些物品,你可能會為每個盒子制作一個清單。這樣,當(dāng)你需要找到某個特定的物品時,只需要查閱相應(yīng)的清單,就能迅速知道它存放在哪個盒子里。在Sora的處理過程中,與之類似的“清單”就是空間時間潛在補(bǔ)丁。通過視頻壓縮網(wǎng)絡(luò)的處理,Sora將視頻分割成許多小塊,每個小塊都包含了視頻中的一小部分空間和時間信息,這就像是視頻內(nèi)容的詳細(xì)“清單”。這樣的處理使得Sora能夠在后續(xù)的步驟中精確地處理視頻的每一個部分。
步驟3:視頻生成的Transformer模型
最后,想象你和朋友們一起玩一個特殊的拼圖游戲,這個游戲的規(guī)則就是根據(jù)一個故事來拼出一幅完整的畫面。你們首先將故事分成了幾個部分,每個人負(fù)責(zé)一部分。接著,你們根據(jù)自己負(fù)責(zé)的那部分故事內(nèi)容選擇或者繪制出相應(yīng)的拼圖碎片。最后,你們將各自的拼圖碎片拼接在一起,形成了一幅完整的圖像,展現(xiàn)了整個故事的內(nèi)容。在Sora生成視頻的過程中,Transformer模型就扮演了這樣的角色。它接收空間時間潛在補(bǔ)?。匆曨l內(nèi)容的“拼圖片”)和文本提示(即“故事”),然后決定如何調(diào)整或組合這些拼圖碎片以創(chuàng)造出最終的視頻,從而呈現(xiàn)出文本提示中的故事情節(jié)。
三、Sora模型技術(shù)特點與創(chuàng)新點
Sora支持多種視頻格式
Sora模型對多種視頻格式的強(qiáng)大兼容性。比如說,不管是寬屏的1920x1080p視頻、垂直的1080x1920視頻,還是其他任何比例的視頻,Sora都能夠輕松處理。這種兼容性使得Sora能夠直接為不同設(shè)備生成相應(yīng)比例的內(nèi)容,滿足各種不同的觀看需求。此外,Sora還能夠先在低分辨率下快速制作內(nèi)容原型,然后再以全分辨率生成最終產(chǎn)品,這一切都可以在同一個模型內(nèi)完成。這樣的特性不僅增強(qiáng)了內(nèi)容創(chuàng)作的靈活性,而且極大地簡化了視頻內(nèi)容的制作過程。
Sora改進(jìn)的視頻構(gòu)圖和框架
Sora模型在視頻構(gòu)圖和畫面框架方面也有了顯著的提升。由于模型是在原始比例上進(jìn)行訓(xùn)練的,Sora能夠更精準(zhǔn)地理解和設(shè)計視頻的構(gòu)圖和框架。與那些將所有訓(xùn)練視頻裁剪成方形格式的模型不同,Sora能夠更有效地保持視頻主題的完整性。例如,在處理寬屏視頻時,Sora能夠確保主要的內(nèi)容始終位于觀眾的視野中心,而不是像其他模型那樣只展示主題的一部分。這樣的能力不僅增強(qiáng)了生成視頻的視覺品質(zhì),也優(yōu)化了觀眾的觀看體驗。
語言理解與視頻生成
Sora對文本的深入理解是其一項顯著特性。借助先進(jìn)的文本轉(zhuǎn)化為詞向量的技術(shù),能夠精確解讀用戶的文本指令,并基于這些指令創(chuàng)造出充滿細(xì)節(jié)和情感的角色以及栩栩如生的場景。這種功能使得從簡短的文本提示到復(fù)雜視頻內(nèi)容的轉(zhuǎn)變更加順暢和自然,無論是復(fù)雜的動作序列還是微妙情感的表現(xiàn),Sora都能夠精準(zhǔn)把握并呈現(xiàn)出來。
多模態(tài)輸入處理
Sora還能夠接收靜態(tài)圖像或現(xiàn)有視頻作為輸入,進(jìn)行內(nèi)容的擴(kuò)展、填充缺失的幀或進(jìn)行風(fēng)格轉(zhuǎn)換等任務(wù)。這種多功能性極大地拓寬了Sora的應(yīng)用領(lǐng)域,它不僅能夠用于從頭開始創(chuàng)作視頻內(nèi)容,還能夠用于對現(xiàn)有內(nèi)容的二次加工,為用戶提供了更多的創(chuàng)作靈活性和想象空間。
人工智能,AIGC 的開發(fā)使用離不開算力,模型的訓(xùn)練,結(jié)果的推理都需要不同的算力支撐,如果有AI服務(wù)器,算力租賃和模型訓(xùn)練等問題,都可以后臺私我!
————————————————
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
原文鏈接:計算機(jī)視覺的應(yīng)用23-OpenAI發(fā)布的文本生成視頻大模型Sora的原理解密-CSDN博客