南昌左傳實業(yè)有限公司
移動電話:13687088555(張經(jīng)理)
客服QQ:7113911 43955769
傳真:0791-86452423
聯(lián)系電話:0791-86452423
客服信箱:43955769@qq.com
文章目錄
一、Sora模型的發(fā)布
二、Sora模型生成視頻的原理
文本提示生成內容
空間時間補丁
視頻生成過程
步驟1:視頻壓縮網(wǎng)絡
步驟2:空間時間潛在補丁提取
步驟3:視頻生成的Transformer模型
三、Sora模型技術特點與創(chuàng)新點
Sora支持多種視頻格式
Sora改進的視頻構圖和框架
語言理解與視頻生成
多模態(tài)輸入處理
一、Sora模型的發(fā)布
Sora模型是OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是叫做“世界模擬器” ),Sora模型于2024年2月15日(美國當?shù)貢r間)正式對外發(fā)布。
Sora模型實現(xiàn)了輸入文本生成高質量的視頻功能,Sora對于需要制作視頻的藝術家、電影制片人或學生帶來無限可能,再一次的震撼到我們。
對于我們這些普通人如何了解Sora呢?我們可以想象一下,你在瀏覽一本展示世界各地名勝的圖片集,里面收錄了來自不同國家的風景照片。有的展示了一望無際的海景,有的呈現(xiàn)了狹窄的小巷,還有的描繪了夜晚燈火輝煌的城市景觀。盡管這些照片在內容和風格上各有千秋,但你能夠輕而易舉地識別每一張照片所代表的地點和情感,因為你的大腦能夠將這些不同的視覺信息整合并理解。
與此類似,Sora面對的挑戰(zhàn)在于處理和分析來自全球各地、由不同設備拍攝的數(shù)以百萬計的圖片和視頻。這些視覺數(shù)據(jù)在分辨率、寬高比、色彩深度等方面存在差異。為了使Sora能夠像人類大腦那樣理解和生成如此豐富的視覺內容,OpenAI開發(fā)了一套方法,將這些不同類型的視覺數(shù)據(jù)轉換為統(tǒng)一的表示形式。
二、Sora模型生成視頻的原理
首先,Sora利用一種稱為“視頻壓縮網(wǎng)絡”的技術,將輸入的圖像或視頻數(shù)據(jù)轉換成一個更簡潔的、低維度的表達方式。這個過程類似于將不同尺寸和分辨率的圖片進行“標準化”,以便于進行后續(xù)的處理和存儲。這種轉換并不是要摒棄原始數(shù)據(jù)的特點,而是將其轉換成一種對Sora來說更易于理解和操作的形態(tài)。
然后,Sora將這些壓縮過的數(shù)據(jù)進一步細分為所謂的“空間時間補丁”(Spacetime Patches),這些補丁可以被視作視覺內容的基本單元,就像我們之前提到的相冊中的每一張照片都可以被拆分成包含獨特景觀、顏色和紋理的小塊。這樣,無論原始視頻的長度、分辨率或風格如何,Sora都能將它們轉化為一種一致的格式。
通過這種方式,Sora能夠在保持原始視覺信息多樣性的同時,將來自不同來源和風格的視覺數(shù)據(jù)整合成一種統(tǒng)一的內部表達形式。這就像你在翻閱世界名勝相冊時,盡管照片各不相同,但你依然能夠以相同的方式去理解和欣賞它們。
文本提示生成內容
Sora是如何根據(jù)文本提示生成內容的。這個過程主要依賴于一種稱為“文本條件化的Diffusion模型”的技術。為了解釋這個技術的運作原理,我們可以用一個日常生活的例子來說明:設想你手中有一本充滿隨意涂鴉的草圖本,起初,本子上滿是隨機的墨跡,看起來毫無意義。但如果你按照一個特定的主題,比如“花園”,逐漸地去修改和細化這些墨跡,最終,這些雜亂的線條將逐漸演變成一幅描繪花園的美麗畫面。在這個例子中,你的“特定主題”就是文本提示,而你逐步改善草圖本的過程,就類似于Diffusion模型的工作機制。
具體到Sora的應用,這個過程始于一段與目標視頻長度相同但內容完全是隨機噪聲的視頻,可以將其想象成草圖本上的那些無意義的墨跡。然后,Sora根據(jù)給定的文本提示(例如“一只貓坐在窗臺上看日落”)開始“編輯”這段視頻。在這個過程中,Sora利用了從大量視頻和圖片數(shù)據(jù)中學習到的知識,以決定如何逐步消除噪聲,將這段噪聲視頻轉變?yōu)榻咏谋久枋龅膬热荨?/p>
這個“編輯”過程是通過數(shù)百個連續(xù)的步驟逐漸完成,每一步都使得視頻更接近最終的目標。這種方法的一個顯著優(yōu)勢在于其靈活性和創(chuàng)新性:即使是相同的文本提示,通過不同的初始噪聲狀態(tài)或者在轉換步驟中進行微調,也能夠產生視覺上各具特色、但都與文本提示相契合的視頻內容。這就像是多位藝術家根據(jù)同一主題創(chuàng)作出風格迥異的畫作。
利用這種基于文本條件的Diffusion模型,Sora不僅能夠創(chuàng)造出具有極高創(chuàng)意性的視頻和圖像,還能夠確保所生成的內容與用戶的文本提示高度吻合。無論是重現(xiàn)真實場景還是構建幻想世界,Sora都能夠根據(jù)文本提示“繪制”出令人驚嘆的視覺作品。
空間時間補丁
空間時間補丁:我們可以理解為將視頻或圖片分解成許多小塊或“補丁”,每個小塊都攜帶著一定的時間和空間信息。這種方法的靈感來自于處理靜態(tài)圖片的技術,其中圖片被分割成小塊以便更高效地進行分析。在視頻處理的背景下,這個概念被擴展到了時間維度上,不僅涉及空間(即圖片的特定區(qū)域),還包括這些區(qū)域隨時間的變化。
為了讓大家更好地理解空間時間補丁是如何運作的,我們可以用一個簡單的日常例子來說明:想象你在觀看一部動畫片。如果我們把這部電影切割成單幀的靜態(tài)畫面,并且把這些畫面進一步分割成更小的區(qū)塊(即“補丁”),那么每個小區(qū)塊都會含有畫面的一部分信息。隨著時間的前進,這些小區(qū)域的信息會隨著角色動作或場景轉換而改變,這樣就加入了時間維度上的動態(tài)內容。在Sora中,這樣的“空間時間補丁”使得模型能夠更精確地處理視頻內容的每一個小部分,并且同時考慮到它們隨時間的變化。
在Sora處理視覺內容的流程中,空間時間補丁最初是通過視頻壓縮網(wǎng)絡生成的。這個網(wǎng)絡的任務是將原始視頻數(shù)據(jù)轉換成更低的維度表示,也就是由眾多小塊組成的密集網(wǎng)絡。這些小塊就是我們所稱的“補丁”,每個補丁都攜帶著視頻的一部分空間和時間信息。
生成這些空間時間補丁之后,Sora便可以開始它們的轉換過程。利用已經(jīng)預先訓練好的轉換器(Transformer模型),Sora能夠分析每個補丁的內容,并根據(jù)輸入的文本提示進行必要的調整。例如,如果文本提示是“海邊奔跑的馬兒”,Sora將定位到與“海邊”和“奔跑的馬兒”相關的補丁,并對它們進行相應的修改,以創(chuàng)造出與文本提示相符的視頻內容。
這種基于空間時間補丁的處理手段具有幾個明顯的優(yōu)點。首先,它使Sora能夠以非常細致的粒度操作視頻內容,因為它可以獨立處理視頻中的每一個小部分。其次,這種方法極大地增強了處理視頻的靈活性,讓Sora能夠生成具有復雜動態(tài)的高質量視頻,這對于傳統(tǒng)的視頻生成技術來說是一項艱巨的任務。此外,通過對這些補丁進行有效的管理和轉換,Sora能夠在保持視頻內容連貫性的同時,制作出多種多樣的視覺效果,滿足用戶的多樣化需求。
視頻生成過程
我們將Sora在視頻生成過程分成三個步驟:視頻壓縮網(wǎng)絡、空間時間潛在補丁提取以及視頻生成的Transformer模型。
步驟1:視頻壓縮網(wǎng)絡
想象一下,你正在整理一間混亂的房間,你的目標是以最少的盒子來收拾所有的物品,并且保證以后能夠迅速找到需要的物品。在這個過程中,你可能會把小物品放入小盒子,然后再把這些小盒子放入更大的箱子。這樣,你就能夠用更少、更有條理的空間來存放同樣數(shù)量的物品。視頻壓縮網(wǎng)絡的工作原理與此類似。它將視頻內容“整理”成一個更加緊湊、高效的形式(即降低維度)。這樣,Sora在處理視頻時能夠更加高效,也能夠保留足夠的信息來重建原始視頻。
步驟2:空間時間潛在補丁提取
繼續(xù)上面的比喻,如果你想詳細記錄每個盒子里放置了哪些物品,你可能會為每個盒子制作一個清單。這樣,當你需要找到某個特定的物品時,只需要查閱相應的清單,就能迅速知道它存放在哪個盒子里。在Sora的處理過程中,與之類似的“清單”就是空間時間潛在補丁。通過視頻壓縮網(wǎng)絡的處理,Sora將視頻分割成許多小塊,每個小塊都包含了視頻中的一小部分空間和時間信息,這就像是視頻內容的詳細“清單”。這樣的處理使得Sora能夠在后續(xù)的步驟中精確地處理視頻的每一個部分。
步驟3:視頻生成的Transformer模型
最后,想象你和朋友們一起玩一個特殊的拼圖游戲,這個游戲的規(guī)則就是根據(jù)一個故事來拼出一幅完整的畫面。你們首先將故事分成了幾個部分,每個人負責一部分。接著,你們根據(jù)自己負責的那部分故事內容選擇或者繪制出相應的拼圖碎片。最后,你們將各自的拼圖碎片拼接在一起,形成了一幅完整的圖像,展現(xiàn)了整個故事的內容。在Sora生成視頻的過程中,Transformer模型就扮演了這樣的角色。它接收空間時間潛在補?。匆曨l內容的“拼圖片”)和文本提示(即“故事”),然后決定如何調整或組合這些拼圖碎片以創(chuàng)造出最終的視頻,從而呈現(xiàn)出文本提示中的故事情節(jié)。
三、Sora模型技術特點與創(chuàng)新點
Sora支持多種視頻格式
Sora模型對多種視頻格式的強大兼容性。比如說,不管是寬屏的1920x1080p視頻、垂直的1080x1920視頻,還是其他任何比例的視頻,Sora都能夠輕松處理。這種兼容性使得Sora能夠直接為不同設備生成相應比例的內容,滿足各種不同的觀看需求。此外,Sora還能夠先在低分辨率下快速制作內容原型,然后再以全分辨率生成最終產品,這一切都可以在同一個模型內完成。這樣的特性不僅增強了內容創(chuàng)作的靈活性,而且極大地簡化了視頻內容的制作過程。
Sora改進的視頻構圖和框架
Sora模型在視頻構圖和畫面框架方面也有了顯著的提升。由于模型是在原始比例上進行訓練的,Sora能夠更精準地理解和設計視頻的構圖和框架。與那些將所有訓練視頻裁剪成方形格式的模型不同,Sora能夠更有效地保持視頻主題的完整性。例如,在處理寬屏視頻時,Sora能夠確保主要的內容始終位于觀眾的視野中心,而不是像其他模型那樣只展示主題的一部分。這樣的能力不僅增強了生成視頻的視覺品質,也優(yōu)化了觀眾的觀看體驗。
語言理解與視頻生成
Sora對文本的深入理解是其一項顯著特性。借助先進的文本轉化為詞向量的技術,能夠精確解讀用戶的文本指令,并基于這些指令創(chuàng)造出充滿細節(jié)和情感的角色以及栩栩如生的場景。這種功能使得從簡短的文本提示到復雜視頻內容的轉變更加順暢和自然,無論是復雜的動作序列還是微妙情感的表現(xiàn),Sora都能夠精準把握并呈現(xiàn)出來。
多模態(tài)輸入處理
Sora還能夠接收靜態(tài)圖像或現(xiàn)有視頻作為輸入,進行內容的擴展、填充缺失的幀或進行風格轉換等任務。這種多功能性極大地拓寬了Sora的應用領域,它不僅能夠用于從頭開始創(chuàng)作視頻內容,還能夠用于對現(xiàn)有內容的二次加工,為用戶提供了更多的創(chuàng)作靈活性和想象空間。
人工智能,AIGC 的開發(fā)使用離不開算力,模型的訓練,結果的推理都需要不同的算力支撐,如果有AI服務器,算力租賃和模型訓練等問題,都可以后臺私我!
————————————————
版權聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權協(xié)議,轉載請附上原文出處鏈接和本聲明。
原文鏈接:計算機視覺的應用23-OpenAI發(fā)布的文本生成視頻大模型Sora的原理解密-CSDN博客