【聚看點(diǎn)】用嘴做視頻真來了,Meta 這個新應(yīng)用太逆天了
今年,是 AI 在圖像視頻制作領(lǐng)域進(jìn)步很大的一年。
(資料圖)
有人拿著 AI 生成的圖像拿走了數(shù)字藝術(shù)大獎,戰(zhàn)勝了一眾人類藝術(shù)家;有 Tiktok 這樣的應(yīng)用通過文字輸入生成圖片,變?yōu)槎桃曨l的綠幕背景;還有新的產(chǎn)品可以做到文字直接生成視頻,直接實(shí)現(xiàn)「用嘴做視頻」的效果。
這次的產(chǎn)品來自深耕人工智能多年,前段時間才因為元宇宙被瘋狂嘲諷的 Meta。
Meta 元宇宙曾被瘋狂嘲諷
只是這次,你不能嘲諷它了,因為它真的有了小突破。
文字轉(zhuǎn)視頻,能做成什么樣
現(xiàn)在,你可以動嘴做視頻了。
這話雖然有點(diǎn)夸張,但 Meta 這次推出的 Make-A-Video 恐怕真是朝著這個目標(biāo)前進(jìn)的。
目前 Make-A-Video 可以做到的是:
文字直接生成視頻——將你的想象力變成真實(shí)的、獨(dú)一無二的視頻
圖片直接轉(zhuǎn)為視頻——讓單一圖片或兩張圖片自然地動起來
視頻生成延伸視頻——輸入一個視頻創(chuàng)建視頻變體
單說文字直接生成視頻這個方面,Make-A-Video 就戰(zhàn)勝了不少專業(yè)的動畫設(shè)計專業(yè)的學(xué)生。至少它什么風(fēng)格都能做,而且制作成本非常低。
雖然官網(wǎng)還不能讓你直接生成視頻體驗,但你可以先提交個人資料,之后 Make-A-Video 有任何動向都會先和你分享。
目前可以看到的案例不多,官網(wǎng)展示的案例在細(xì)節(jié)上還有一些怪異的地方。但不管怎么說,文字可以直接變視頻,本身就是一個進(jìn)步了。
一只泰迪熊在畫自畫像,你可以看到小熊的手在紙面陰影部分的投影不太自然。
機(jī)器人在時代廣場跳舞。
貓拿著電視遙控器換臺,貓咪手部爪子和人手極為相似,某些時候看還覺得有點(diǎn)驚悚。
還有戴著橙色針織帽的毛茸茸樹懶在擺弄一臺筆記本電腦,電腦屏幕的光映在它的眼睛里。
上面這些屬于超現(xiàn)實(shí)風(fēng)格,和現(xiàn)實(shí)更相似的案例則更容易穿幫。
Make-A-Video 展示的案例如果只是專注局部表現(xiàn)都不錯,例如藝術(shù)家在畫布上畫畫的特寫,馬喝水,在珊瑚礁游泳的小魚。
但是稍微寫實(shí)一點(diǎn)的年輕夫婦在大雨中行走就很怪異,上半身還好,下半身的腳忽隱忽現(xiàn),有時還會被拉長,如同鬼片。
還有一些繪畫風(fēng)格的視頻,宇宙飛船登陸火星,穿著晚禮服的夫婦被困在傾盆大雨中,陽光灑在桌上,會動的熊貓玩偶。從細(xì)節(jié)上看,這些視頻都不夠完美,但僅僅從 AI 文字轉(zhuǎn)視頻的創(chuàng)新效果來看,還是讓人驚嘆的。
靜態(tài)的油畫也可以在 Make-A-Video 幫助下動起來——船在大浪中前進(jìn)。
海龜在海中游動,最初的畫面非常自然,后面變得更像綠幕摳圖,不自然。
瑜伽訓(xùn)練者在朝陽中舒展身體,瑜伽墊也會隨著視頻的變化一起變化——這個 AI 就戰(zhàn)勝不了學(xué)習(xí)影視制作的學(xué)生了,控制變量沒做好。
最后輸入一個視頻模仿其風(fēng)格創(chuàng)造視頻變體也有 3 種案例。
其中一個變化相對來說沒那么精致。宇航員在太空中飄舞的視頻變?yōu)榱嗣栏猩匀醢姹镜?4 個粗放版視頻。
小熊跳舞的視頻倒是有不少令人驚喜的變化,至少舞姿有變化了。
至于最后兔子吃草的視頻就是最「安能辨我是雌雄」的類型了,5 個視頻最后很難認(rèn)出誰是初始視頻,看著都蠻和諧。
文字轉(zhuǎn)圖片剛有進(jìn)展,視頻就來了
在《阿法狗之后,它再次徹底顛覆人類認(rèn)知》中,我們曾經(jīng)介紹過圖像生成應(yīng)用 DALL·E。曾有人用它制作出的圖像去和人類藝術(shù)家 PK并最終取勝。
現(xiàn)在我們看到的 Make-A-Video 可以說是一個視頻版本的 DALL·E(初級版)——它就像 18 個月前的 DALL·E,有巨大突破,但現(xiàn)在的效果不一定能讓人滿意。
DALL·E 創(chuàng)作的延伸畫作
甚至可以說,它就是站在巨人 DALL·E 肩膀上做出成就的產(chǎn)品。相較于文字生成圖片,Make-A-Video 并沒有在后端進(jìn)行太多全新變革。
研究人員在論文中也表示:「我們看到描述文本生成圖片的模型在生成短視頻方面也驚人地有效?!?/p>
描述文本生成圖片的獲獎作品
目前 Make-A-Video 制作的視頻有 3 個優(yōu)點(diǎn):
1.
加速了 T2V 模型(文字轉(zhuǎn)視頻)的訓(xùn)練
2.
不需要成對的文本轉(zhuǎn)視頻數(shù)據(jù)
3.
轉(zhuǎn)化的視頻繼承了原有圖像/視頻的風(fēng)格
這些圖像當(dāng)然有缺點(diǎn),前面提到的不自然都是真實(shí)存在的。而且它們不像這個年代誕生的視頻,畫質(zhì)模糊,動作僵硬,不支持聲音匹配,一段視頻長度不超過 5 秒,解析度 64 x 64px 都是硬傷,它們的清晰度遠(yuǎn)遠(yuǎn)不夠。
這個視頻狗狗舌頭和手有幾幀非常怪異
幾個月前清華大學(xué)和智源研究院(BAAI)研究團(tuán)隊發(fā)布的第一個能根據(jù)文本直接合成視頻的 CogVideo 模型也有這樣的問題。它基于大規(guī)模預(yù)訓(xùn)練的 Transformer 架構(gòu),提出了一種多幀率分層訓(xùn)練策略,可以高效的對齊文本和視頻片段,只是也經(jīng)不起細(xì)看。
但誰能說 18 個月后,Make-A-Video 和 CogVideo 制作的視頻不會比大部分人更好呢?
CogVideo 生成的視頻——這個目前僅支持中文生成
目前已經(jīng)發(fā)布的文字轉(zhuǎn)視頻工具雖然不多,但在路上的卻有不少。在 Make-A-Video 發(fā)布后,初創(chuàng)企業(yè) StabilityAI 的開發(fā)者就公開表示:「我們的(文字轉(zhuǎn)視頻應(yīng)用)會更快更好,適用于更多人?!?/p>
有競爭才會更好,越來越逼真的文字轉(zhuǎn)圖像功能就是最好的證明。
責(zé)任編輯:hnmd004
- 【聚看點(diǎn)】用嘴做視頻真來了,Meta 這個新2022-10-04
- 每日精選:古人類DNA與重癥新冠有關(guān)?20222022-10-04
- 焦點(diǎn)熱門:河北10月3日新增確診病例1例、無2022-10-04
- 全球關(guān)注:覺察兩名婦女可疑,他們救下被拐2022-10-04
- 前沿資訊!交警相助車輛脫困2022-10-04
- 世界觀察:“天價”露營,割今年最后一波韭2022-10-04
- 天天最資訊丨(新華簡訊)伊朗敦促美國戒除2022-10-04
- 每日視點(diǎn)!幾年前按斤賣,如今身價暴漲!這2022-10-04
- 當(dāng)前快播:今天熱出“新紀(jì)錄”,明天冷空氣2022-10-04
- 當(dāng)前聚焦:氣溫降多穿點(diǎn)防感冒2022-10-04
- 焦點(diǎn)熱門:(財經(jīng)·行情)芝加哥農(nóng)產(chǎn)品期價32022-10-04
- 世界聚焦:今日重陽,別忘了向家中父母長輩2022-10-04
- 全球熱頭條丨既抓進(jìn)度又減少對居民影響民生2022-10-04
- 環(huán)球今亮點(diǎn)!假期看展去!這個漆畫作品展帶2022-10-04
- 全球熱頭條丨正大廣場20歲啦!大額滿減秒殺2022-10-04
- 環(huán)球簡訊:美國為保障國民心理健康提供約3.12022-10-04
- 天天通訊!「視頻」瑞麗:國慶假期,他們用2022-10-04
- 今日要聞!中國成功連任國際電信聯(lián)盟理事國2022-10-03
- 簡訊:「怒江草果正紅火」怒江:“草果文化2022-10-03
- 世界信息:最高資助100萬元!這四類人才可申2022-10-03
- 天天看點(diǎn):服務(wù)企業(yè)發(fā)展,助力樓宇招商!金2022-10-03
- 天天新資訊:享受多彩假日禮贊美好生活2022-10-03
- 當(dāng)前熱訊:云南省脊柱內(nèi)鏡診療技術(shù)和綜合介2022-10-03
- 【全球新視野】(體育)“川端康成展”現(xiàn)多2022-10-03
- 環(huán)球熱門:(社會)國慶假期樂出游(2)2022-10-03
- 天天熱資訊?。ㄐ氯A全媒+·圖文互動)滿眼2022-10-03
- 全球觀點(diǎn):清傅綠化吹響“晚秋栽植”集結(jié)號2022-10-03
- 【環(huán)球時快訊】長春這條快速路全線正式通車2022-10-03
- 【全球播資訊】記者直擊為五星紅旗添彩!通2022-10-03
- 【天天新視野】老人助浴師:為行動不便老人2022-10-03