本站5月15日消息,5月14日晚,阿里巴巴正式開(kāi)源通義萬(wàn)相Wan2.1-VACE,這是業(yè)界功能最全的視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等全系列基礎(chǔ)生成和編輯能力。
本次共開(kāi)源1.3B和14B兩個(gè)版本,其中1.3B版本可在消費(fèi)級(jí)顯卡運(yùn)行,開(kāi)發(fā)者可在GitHub、Huggingface及魔搭社區(qū)下載體驗(yàn)。
據(jù)介紹,Wan2.1-VACE支持全部主流輸入形式,涵蓋文本、圖像、視頻、Mask和控制信號(hào),可以實(shí)現(xiàn)角色一致性、布局、運(yùn)動(dòng)姿態(tài)和幅度等要素的控制。
例如,Wan2.1-VACE可以基于物體參考圖或者視頻幀生成一段視頻,也可以通過(guò)抹除、局部擴(kuò)展等操作,對(duì)原有視頻進(jìn)行重新生成,該模型還可以通過(guò)深度圖、光流、布局、灰度、線稿等控制信號(hào)對(duì)視頻進(jìn)行編輯。
Wan2.1-VACE還支持任意基礎(chǔ)能力的自由組合,用戶(hù)無(wú)需針對(duì)特定功能訓(xùn)練一個(gè)新的專(zhuān)家模型,即可完成更復(fù)雜的任務(wù),極大地?cái)U(kuò)展了AI視頻生成的想象空間。
例如,將圖片參考和主體重塑功能組合,可以實(shí)現(xiàn)視頻的物體替換;將圖片參考、首幀參考、背景擴(kuò)展和時(shí)長(zhǎng)延展功能,可以將一張豎版圖片變成橫版視頻,并且在其中加入?yún)⒖紙D片中的元素。
據(jù)悉,自今年2月以來(lái),通義萬(wàn)相已先后開(kāi)源文生視頻模型、圖生視頻模型和首尾幀生視頻模型,目前在開(kāi)源社區(qū)的下載量已超330萬(wàn),在GitHub上斬獲超1.1w star,是同期最受歡迎的視頻生成模型。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。