昆侖萬維攜前沿技術(shù)強勢來襲!8月11日起,SkyWorkAI技術(shù)發(fā)布周拉開帷幕,連續(xù)五天不間斷發(fā)布多模態(tài)AI核心模型。首款登場的SkyReels-A3模型,基于創(chuàng)新技術(shù)架構(gòu),可實現(xiàn)任意時長的全模態(tài)音頻驅(qū)動數(shù)字人創(chuàng)作。其生成效果突破行業(yè)瓶頸,畫面連貫、動作自然,為數(shù)字內(nèi)容創(chuàng)作帶來革新體驗。
8月11日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)正式發(fā)布SkyReels-A3模型,基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進行視頻延展+基于強化學習的動作優(yōu)化+運鏡可控”,其能實現(xiàn)任意時長的全模態(tài)音頻驅(qū)動數(shù)字人創(chuàng)作,讓個性化、交互式內(nèi)容的創(chuàng)作更高效與便捷。目前,SkyReels-A3模型已正式上線。
8月11日,昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動,8月11日至8月15日,昆侖萬維將每天發(fā)布一款新模型,從視頻生成模型(Skyreels)、世界模型,到生圖一體化模型、智能體(Agent)模型,再到AI音樂創(chuàng)作模型(Mureka),連續(xù)五天發(fā)布覆蓋多模態(tài)AI核心場景的前沿模型。
作為音頻驅(qū)動(audio-driven)人像視頻生成模型,SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”。上傳一張人像圖片,再配段語音,照片里的人就能按這段語音開口說話或唱歌;上傳一張人像圖片、配段語音,再給出文字Prompt(提示詞),照片里的人就能按照要求的狀態(tài)進行表演;SkyReels-A3還可以將原視頻的音頻換掉,人物會自動對上新的口型、表情和表演,畫面依舊連貫。
同時,基于對實際應(yīng)用場景(如廣告、直播帶貨等)的分析,昆侖萬維發(fā)現(xiàn)這些場景不僅需要更長的一致性視頻,在特定交互動作上的自然度和清晰度也有待加強。昆侖萬維構(gòu)造了針對線上直播等場景的數(shù)據(jù),對此類場景中的視頻生成進行了特定優(yōu)化。
此外,面對藝術(shù)美感要求更高的音樂MV、電影片段或演講視頻等場景,昆侖萬維構(gòu)造了一種基于ControlNet結(jié)構(gòu)的鏡頭控制模塊,通過精細化鏡頭參數(shù)的輸入,實現(xiàn)幀級別精準運鏡控制。具體來說,鏡頭控制模塊提取參考圖的深度信息,配合相機參數(shù),渲染目標運鏡軌跡的參考視頻,該參考視頻隨后作為顯式運動先驗,引導模型逐幀復現(xiàn)精準的運鏡效果,生成帶有運鏡效果的數(shù)字人視頻。
SkyReels-A3的性能通過廣泛的實驗進行了驗證,包括現(xiàn)有最先進模型(開源和閉源)的定量和定性比較,充分展示了其在音頻驅(qū)動視頻生成方面的能力。
瀏覽量:02025-08-31
瀏覽量:02025-08-22
瀏覽量:02025-08-19
瀏覽量:02025-08-17
瀏覽量:02025-07-04