標籤

2024年6月11日 星期二

一鳴驚人 AI 工具 Kling 體驗記

一鳴驚人 AI 工具 Kling 體驗記

可靈AI 一鳴驚人 

快手科技推出 Kling AI

男人騎馬在戈壁沙漠奔馳

小男孩在花園裡騎自行車

中國男孩享受起士漢堡

一隻白貓在車裡駕駛

一對男女手牽手在星空下行走

柯基犬在海灘上漫步

虎兔拳擊賽影片

美國 OpenAI 科技公司於2024 年 2月 15 日推出生成式AI模型 Sora,它能根據使用者輸入的文字描述,產生最長1分鐘的高畫質影片。Sora 生成的影像品質很高,《紐約時報》評論道,「這看起來像是從好萊塢電影中擷取的片段。」讓人驚嘆不已,也讓OpenAI 科技公司建立無疑的業界領導地位


出人意料之外的,大陸科技公司快手 (Kuaishou) 於六月推出了一款名為可靈 ( Kling ) 的突破性人工智慧模型,該模型可以根據文字提示產生長達兩分鐘的 1080p 解析度影片。其模型採用先進的 Diffusion Transformer架構和 3D VAE技術。聲稱優於先前的 AI 視訊生成模型,包括 OpenAI 的 Sora。

根據快手官網,可靈特色為:
大幅度的合理運動: 可靈採用3D時空聯合注意力機制,能夠更好地建模複雜時空運動,生成較大幅度運動的視頻內容,同時能夠符合運動規律。
提示詞:一個男人騎著馬在戈壁沙漠飛奔,背後美麗的夕陽,電影級別畫面

長達2分鐘的視頻生成: 得益于高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達2分鐘的視頻,且幀率達到 30fps。
提示詞大意:小男孩在花園裡騎自行車經歷秋冬春夏四季變換

類比物理世界特性: 基於自研模型架構及 Scaling Law激發出的強大建模能力,可靈能夠類比真實世界的物理特性,生成符合物理規律的視頻。
提示詞:一個戴眼鏡的中國男孩在速食店內閉眼享受美味的起士漢堡

強大的概念組合能力: 基於對文本-視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用戶豐富的想像力轉化為具體的畫面,虛構真實世界中不會出現的的場景。
提示詞:一隻白貓在車裡駕駛,穿過繁忙的市區街道,背景是高樓和行人

電影級的畫面生成: 基於自研 3D VAE,可靈能夠生成1080p解析度的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。
提示詞:一對男女手牽手在星空下行走,背景斗轉星移

支援自由的輸出視頻寬高比: 可靈採用了可變解析度的訓練策略,在推理過程中可以做到同樣的內容輸出多種多樣的視頻寬高比,滿足更豐富場景中的視頻素材使用需求。
提示詞:一隻戴著太陽鏡的柯基在熱帶島嶼的海灘上漫步

在網路上看到的評論,可謂佳評如潮,如: 

一個 Sora 新的中國競爭對手正在席捲社交媒體,目前尚未完全開放,但這並沒有阻止它迅速走紅,一些令人印象深刻的片段表明它至少和 Sora一樣有能力。
Kling AI 看起來確實像是另一個強大的人工智慧影片產生器。它可以讓早期測試者創建長度最多為兩分鐘的 1080/30p 影片,其變化令人印象深刻,並且具有很大的一致性。
Kling AI 究竟需要多長時間才能開放給中國以外的用戶還有待觀察。但隨著 OpenAI 暗示 Sora 將在「今年晚些時候」公開發布,Kling AI 如果想成為人工智慧視訊領域的 TikTok,最好不要等太久。」

Kling AI 超越了許多競爭對手,包括 OpenAI 備受期待的 Sora 模型,它利用先進的 3D 重建技術來製作長達兩分鐘的生動逼真的視頻,為人工智能驅動的視頻創作樹立了新的標桿。
該模型能夠產生生動的視覺效果和逼真的內容,因此很難區分人工智慧生成的影片和真實的鏡頭。這種細節和真實感是透過先進的 3D 臉部和身體重建技術實現的,確保每一幀細節豐富、栩栩如生。
Kling AI 採用獨特的 3D 變分自動編碼器 (VAE) 進行臉部和身體重建,從單一全身影像中實現詳細的表情和肢體運動。該技術透過 3D 時空聯合注意力機制進一步增強,使模型能夠處理複雜的場景和運動,確保生成的內容遵守物理定律。這些先進技術的結合產生的影片不僅視覺震撼,而且高度逼真,使 Kling AI 成為 AI 視訊生成領域的領導者。
Kling AI 的多功能性體現在它能夠產生各種長寬比的影片並模擬大規模的真實運動,從而有效地模仿現實世界的物理特性。戈壁沙漠中騎馬的男人、開車穿過繁華城市街道的白貓、吃漢堡的孩子等,展現了其高保真處理多樣化複雜場景的能力。
OpenAI 的 Sora 可以生成一分鐘長的視頻,而 Kling AI 將此功能擴展到兩分鐘,為視頻創建提供了更多靈活性和細節。此外,Kling AI 的開放存取方法儘管有區域限制,但也讓渴望探索其功能的使用者更容易使用。這項競爭優勢凸顯了中國在人工智慧視訊生成領域的快速進步,使 Kling AI 成為全球市場的強大競爭對手。」

快手科技開發的Kling AI在視訊品質上與 OpenAI的 Sora相比毫不遜色。以下是一些主要區別:
解析度:Kling AI 可以產生 1080p 高清分辨率的視頻,而 Sora 僅限於 720p 分辨率。
長度:Kling AI 可以製作長達 2 分鐘的視頻,而 Sora 目前僅限於 1 分鐘長的視頻。
真實感:Kling AI 擅長製作逼真的動作和模擬物理世界屬性,從而增強影片的身臨其境的品質。此功能對於需要逼真的人體運動和動態環境的應用特別有用。
時間連貫性:Kling AI 在其影片中展示了更好的時間連貫性,保持了一致的敘述,並確保場景內的動作和動作隨著時間的推移是連貫且合理的。
寬高比:Kling AI 支援多種寬高比,而 Sora 在這方面的能力並未明確提及。
視頻生成速度:Kling AI 可以每秒 30 幀的速度生成視頻,與 Sora 的幀率相當。
總體而言,與 OpenAI 的 Sora 相比,Kling AI 提供了更高的影片品質、更長的影片長度和更真實的動作。」

沒有留言:

張貼留言