昆侖萬維發(fā)布SkyReelsA3 連續(xù)五天發(fā)布多模態(tài)AI核心模型

時間：2025/08/12 10:46:12 編輯：川崎伊俊

昆侖萬維攜前沿技術(shù)強勢來襲！8月11日起，SkyWorkAI技術(shù)發(fā)布周拉開帷幕，連續(xù)五天不間斷發(fā)布多模態(tài)AI核心模型。首款登場的SkyReels-A3模型，基于創(chuàng)新技術(shù)架構(gòu)，可實現(xiàn)任意時長的全模態(tài)音頻驅(qū)動數(shù)字人創(chuàng)作。其生成效果突破行業(yè)瓶頸，畫面連貫、動作自然，為數(shù)字內(nèi)容創(chuàng)作帶來革新體驗。

昆侖萬維發(fā)布SkyReelsA3

8月11日，昆侖萬維科技股份有限公司（以下簡稱“昆侖萬維”）正式發(fā)布SkyReels-A3模型，基于“DiT（Diffusion Transformer）視頻擴散模型+插幀模型進行視頻延展+基于強化學習的動作優(yōu)化+運鏡可控”，其能實現(xiàn)任意時長的全模態(tài)音頻驅(qū)動數(shù)字人創(chuàng)作，讓個性化、交互式內(nèi)容的創(chuàng)作更高效與便捷。目前，SkyReels-A3模型已正式上線。

昆侖萬維SkyWork AI技術(shù)發(fā)布周

8月11日，昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動，8月11日至8月15日，昆侖萬維將每天發(fā)布一款新模型，從視頻生成模型（Skyreels）、世界模型，到生圖一體化模型、智能體（Agent）模型，再到AI音樂創(chuàng)作模型（Mureka），連續(xù)五天發(fā)布覆蓋多模態(tài)AI核心場景的前沿模型。

SkyReels-A3模型：照片可根據(jù)語音對口型

作為音頻驅(qū)動（audio-driven）人像視頻生成模型，SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”。上傳一張人像圖片，再配段語音，照片里的人就能按這段語音開口說話或唱歌；上傳一張人像圖片、配段語音，再給出文字Prompt（提示詞），照片里的人就能按照要求的狀態(tài)進行表演；SkyReels-A3還可以將原視頻的音頻換掉，人物會自動對上新的口型、表情和表演，畫面依舊連貫。

同時，基于對實際應(yīng)用場景（如廣告、直播帶貨等）的分析，昆侖萬維發(fā)現(xiàn)這些場景不僅需要更長的一致性視頻，在特定交互動作上的自然度和清晰度也有待加強。昆侖萬維構(gòu)造了針對線上直播等場景的數(shù)據(jù)，對此類場景中的視頻生成進行了特定優(yōu)化。

此外，面對藝術(shù)美感要求更高的音樂MV、電影片段或演講視頻等場景，昆侖萬維構(gòu)造了一種基于ControlNet結(jié)構(gòu)的鏡頭控制模塊，通過精細化鏡頭參數(shù)的輸入，實現(xiàn)幀級別精準運鏡控制。具體來說，鏡頭控制模塊提取參考圖的深度信息，配合相機參數(shù)，渲染目標運鏡軌跡的參考視頻，該參考視頻隨后作為顯式運動先驗，引導模型逐幀復現(xiàn)精準的運鏡效果，生成帶有運鏡效果的數(shù)字人視頻。