4月15日,快手可靈AI在北京中關(guān)村國際創(chuàng)新中心舉行“靈感成真”2.0模型發(fā)布會,宣布基座模型再次升級,面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。
數(shù)據(jù)顯示,自去年6月發(fā)布以來,可靈AI已累計完成超20次迭代,截至目前,全球用戶規(guī)模突破2200萬。來自世界各地的超1.5萬開發(fā)者和企業(yè)客戶,將可靈的API應(yīng)用于不同的行業(yè)場景中。
一直以來,可靈AI致力于提升模型基礎(chǔ)質(zhì)量,增強畫質(zhì)清晰度,并引入更多創(chuàng)新功能,以滿足用戶多樣化需求??焓指呒壐笨偛?、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤表示,可靈希望讓每個人都能用AI講出好故事,實現(xiàn)更加精準(zhǔn)的復(fù)雜創(chuàng)意表達(dá)。
(?。┛伸`AI全系模型進(jìn)入2.0時代,定義人和AI交互的全新方式
4月15日,可靈大模型2.0版本及可圖大模型2.0版本正式面向全球發(fā)布。據(jù)悉,可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度,保持全球領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。
蓋坤介紹,兩款模型在團隊內(nèi)部的多項勝負(fù)率評測中,均穩(wěn)居業(yè)內(nèi)第一。例如在文生視頻領(lǐng)域,可靈2.0對比谷歌Veo2的勝負(fù)比為205%,對比Sora的勝負(fù)比達(dá)367%,在文字相關(guān)性、畫面質(zhì)量、動態(tài)質(zhì)量等維度上顯著超越對手。
自去年6月發(fā)布以來,可靈AI已累計完成超20次迭代。3月27日,全球知名AI基準(zhǔn)測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模式)以1000分的Arena ELO基準(zhǔn)測試評分登陸圖生視頻(Image to Video)賽道榜首。
作為全球首個用戶可用的DiT視頻生成模型,截至目前,可靈AI全球用戶規(guī)模已突破2200萬,累計生成1.68億個視頻及3.44億張圖片素材。自去年6月上線至今的10個月時間里,可靈AI的月活用戶數(shù)量增長25倍。
(圖說:快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤)
蓋坤認(rèn)為,AI在輔助創(chuàng)意表達(dá)上擁有巨大潛力,但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無法滿足用戶需求,在AI生成內(nèi)容的穩(wěn)定性、以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有“很多挑戰(zhàn)”。也因此,要真正實現(xiàn)“用AI講好每一個故事”的愿景,必須對基模型能力進(jìn)行全方位提升,定義人和AI交互的“全新語言”。
一直以來,可靈AI致力于提升模型基礎(chǔ)質(zhì)量和模型效果,并引入更多創(chuàng)新功能,以滿足用戶的多樣化需求。在本次2.0模型的迭代中,可靈AI正式發(fā)布AI視頻生成的全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中包含身份、外觀、風(fēng)格、場景、動作、表情、運鏡在內(nèi)的多維度復(fù)雜創(chuàng)意,直接高效地傳達(dá)給AI。
“大家應(yīng)該很自然地會感受到文字在表達(dá)影像信息時,是不完備的。我們需要有新的方式,能讓人真正精準(zhǔn)地表達(dá)出心中所想。”蓋坤指出,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個層面,精準(zhǔn)實現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達(dá)。
基于MVL理念,可靈AI正式推出多模態(tài)編輯功能。“從今天起,大家可以在可靈AI的平臺上體驗我們的多模態(tài)編輯能力。用戶可以非常直接地把自己的想法用圖像等方式作為輸入,生成符合自己想法的創(chuàng)意視頻。”蓋坤介紹,MMW(多模態(tài)描述子)將不只局限于圖片和視頻,也可以引入其它模態(tài)的信息,例如聲音、運動軌跡等,讓用戶實現(xiàn)更加豐富的表達(dá)。
(圖說:“靈感成真”可靈AI2.0發(fā)布會現(xiàn)場)
(小)可靈2.0大師版正式發(fā)布,全新上線多模態(tài)視頻編輯功能
基于MVL這一全新交互方式,發(fā)布會現(xiàn)場,快手副總裁、可靈AI負(fù)責(zé)人張迪發(fā)布了全新的可靈2.0大師版,在語義響應(yīng)、動態(tài)質(zhì)量、畫面美學(xué)等方面顯著提升生成效果。
“可靈2.0大師版不僅僅是一次簡單的技術(shù)升級,更是一次全方位的體驗躍升。”張迪介紹,可靈2.0大師版實現(xiàn)了技術(shù)、體驗、美學(xué)的三重突破。
(圖說:快手副總裁、可靈AI負(fù)責(zé)人張迪)
值得一提的是,可靈2.0大師版全面升級視頻及圖像創(chuàng)作可控生成與編輯能力,上線全新的多模態(tài)視頻編輯功能,能靈活理解用戶意圖。支持在一段視頻的基礎(chǔ)之上,通過輸入圖片或文字,對生成的視頻內(nèi)容實現(xiàn)元素的增加、刪減、替換,幫助創(chuàng)作者們實現(xiàn)更加靈活的二次編輯和處理。
(圖說:可靈2.0大師版操作界面)
張迪披露,當(dāng)前,圖生視頻約占到可靈AI視頻創(chuàng)作量的85%,圖片質(zhì)量也對視頻的生成效果產(chǎn)生重要作用。
在圖像生成大模型領(lǐng)域,快手的可圖2.0處于行業(yè)領(lǐng)先水平,擁有多項核心優(yōu)勢,諸如強大的復(fù)雜語義理解能力、電影級的畫面質(zhì)感、多條件的可控風(fēng)格化生成等。在團隊內(nèi)部的多項勝負(fù)率評測中,相較于Midjourney V7、FLUX1.1 [pro]以及Reve等行業(yè)領(lǐng)先的圖像模型,均保持明顯優(yōu)勢。
張迪介紹,可圖2.0文生圖能力迎來全面升級。包括大幅提升指令遵循能力、顯著增強電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。在風(fēng)格化響應(yīng)上,可圖2.0可支持60多種風(fēng)格化的效果轉(zhuǎn)繪,模型出圖創(chuàng)意和想象力實現(xiàn)大幅躍升。
同時,可圖2.0也上線了實用的圖像可控編輯功能——局部重繪和擴圖,支持圖片的增加、修改和修復(fù)。在圖像的多模態(tài)可控生成中,可圖2.0還上線了全新的風(fēng)格轉(zhuǎn)繪功能,只需要上傳一張圖片加上風(fēng)格描述,就能一鍵切換圖片的藝術(shù)風(fēng)格,同時精準(zhǔn)保留原圖的語義內(nèi)容。
(小)AIGC技術(shù)迅猛發(fā)展,為全行業(yè)發(fā)展注入全新活力
除了C端訂閱用戶,可靈AI也面向B端商家提供API接入等服務(wù)。目前,可靈AI已與包括小米、亞馬遜云科技、阿里云、Freepik、藍(lán)色光標(biāo)等在內(nèi)的數(shù)千家國內(nèi)外企業(yè)客戶建立了合作關(guān)系。
蓋坤披露,來自世界各地的超1.5萬開發(fā)者,已將可靈的API應(yīng)用于不同的行業(yè)場景中,累計生成的圖像數(shù)量約1200萬個,生成的視頻素材超過4000萬個。
如今,可靈正在成為AI時代視頻創(chuàng)作的新基礎(chǔ)設(shè)施。AIGC技術(shù)的迅猛發(fā)展,也正在重構(gòu)包括廣告營銷、專業(yè)創(chuàng)作、影視、娛樂創(chuàng)意等在內(nèi)的多個行業(yè)。
以二次元AI創(chuàng)作社區(qū)產(chǎn)品貍譜為例,其產(chǎn)品負(fù)責(zé)人一休介紹,可靈AI為貍譜帶來了創(chuàng)新突破。其1.6版本在人物運動流暢度、鏡頭移動等方面展現(xiàn)出卓越性能,助力貍譜成功接入“動態(tài)LIVE”和“新春萌偶搖”兩大功能。前者實現(xiàn)“圖 - 影 - 音”快速創(chuàng)作,后者在春節(jié)期間引發(fā)60萬用戶轉(zhuǎn)播。未來,雙方將基于貍譜的優(yōu)質(zhì)內(nèi)容數(shù)據(jù)與可靈的算法能力,打造動畫模型,推動AI成為內(nèi)容引擎,并共同孵化優(yōu)質(zhì)創(chuàng)作者,構(gòu)建更活躍的創(chuàng)作生態(tài),攜手開啟二次元內(nèi)容產(chǎn)業(yè)的新篇章。
“可靈AI可全面融入劇集級創(chuàng)作流程”??伸`AI超級創(chuàng)作者、《新世界加載中》總導(dǎo)演、異類Outliers創(chuàng)始人陳翔宇在分享中介紹,AIGC相較于實拍和動畫,不僅是效率的提升,更是試錯空間的革命性釋放。
從劇本創(chuàng)作到內(nèi)容發(fā)行,異類Outliers團隊完成了一次完整的影像工業(yè)化創(chuàng)作流程,覆蓋從美學(xué)表達(dá)到鏡頭結(jié)構(gòu),再到復(fù)雜動作場景與細(xì)節(jié)的全面呈現(xiàn)。“我們實踐之后發(fā)現(xiàn),可靈AI是一個能夠穩(wěn)定、大規(guī)模嵌入劇集創(chuàng)作流程的生成式協(xié)作大模型。”陳翔宇認(rèn)為,在AI的輔助下,導(dǎo)演及編劇團隊的大量內(nèi)容創(chuàng)意也實現(xiàn)了更富有想象力的表達(dá),“AIGC也許是下一代內(nèi)容結(jié)構(gòu)的雛形”。
(圖說:可靈AI超級創(chuàng)作者、《新世界加載中》總導(dǎo)演、異類Outliers創(chuàng)始人陳翔宇)
為了進(jìn)一步激發(fā)AI愛好者們的創(chuàng)作熱情,快手副總裁、可靈AI負(fù)責(zé)人張迪還在發(fā)布會現(xiàn)場正式發(fā)起“可靈AI NextGen 新影像創(chuàng)投計劃”。該計劃將加大對于AIGC創(chuàng)作者的扶持力度,通過千萬資金投入、全球宣發(fā)、IP打造和保障,以全資出品、聯(lián)合出品和技術(shù)支持等靈活多樣的合作方式,讓AI好故事走向世界。同時,可靈AI面向全球創(chuàng)作者發(fā)出征集邀約,邀請用戶共同打造全球首支用戶共創(chuàng)AI創(chuàng)意短片,讓創(chuàng)作者的靈感和創(chuàng)意登陸上海、香港、東京、巴黎、多倫多等世界多地廣告大屏。
面向未來,蓋坤表示,可靈AI將持續(xù)大力推動技術(shù)創(chuàng)新,用人與AI交互的全新語言,幫助用戶實現(xiàn)復(fù)雜創(chuàng)意的精確表達(dá),“我們的初心,是讓每個人都能用AI講出好的故事,我們也真切地希望這一天更快到來”。