
MiniGPT4-Video:讓大模型分析視頻內(nèi)容,依然有難度

MiniGPT4-Video有待繼續(xù)調(diào)優(yōu)。
Sora的發(fā)布,讓文生視頻成了過(guò)去幾個(gè)月里最熱門的一個(gè)話題,與此同時(shí),行業(yè)里也涌現(xiàn)出了不少與視頻內(nèi)容分析相關(guān)的多模態(tài)大模型應(yīng)用。
MiniGPT4-Video就是最近面世的與視頻相關(guān)的多模態(tài)大模型應(yīng)用之一。
該應(yīng)用由KAUST和哈佛大學(xué)研究團(tuán)隊(duì)在今年4月發(fā)表的論文中提出,是一個(gè)專為視頻理解設(shè)計(jì)的多模態(tài)大模型框架。
這一研究團(tuán)隊(duì)在論文中指出,在MiniGPT4-Video出現(xiàn)之前,行業(yè)中已經(jīng)有諸多多模態(tài)大模型的研究項(xiàng)目,諸如MiniGPT、Video-ChatGPT等,但這些研究項(xiàng)目各有缺陷,例如Video-ChatGPT在對(duì)視頻中內(nèi)容進(jìn)行轉(zhuǎn)換過(guò)程中,往往會(huì)造成信息丟失,而且無(wú)法充分利用視頻中的動(dòng)態(tài)時(shí)間信息。
他們提出的MiniGPT4-Video是通過(guò)將每四個(gè)相鄰視覺(jué)標(biāo)記連接,減少了標(biāo)記數(shù)量,同時(shí)也降低了信息損失對(duì)應(yīng)用帶來(lái)的影響。
與此同時(shí),他們通過(guò)為視頻的每一幀添加字幕,從而將每一幀表示為由視頻編碼器提取的視覺(jué)標(biāo)記與由LLM標(biāo)記器提取的文本標(biāo)記的組合,這讓大模型能夠更全面地理解視頻內(nèi)容,從而同時(shí)響應(yīng)視覺(jué)和文本查詢信息。
眾所周知,對(duì)于多模態(tài)大模型而言,數(shù)據(jù)最為關(guān)鍵。
據(jù)悉,為了訓(xùn)練MiniGPT4-Video,該研究團(tuán)隊(duì)用到了三個(gè)數(shù)據(jù)集:
第一個(gè)數(shù)據(jù)集是包含了15938個(gè)濃縮電影視頻字幕的視頻作為數(shù)據(jù)集(CMD),在這個(gè)數(shù)據(jù)集中,每個(gè)視頻長(zhǎng)度為1-2分鐘;
第二個(gè)數(shù)據(jù)集是牛津大學(xué)發(fā)布的一個(gè)擁有200萬(wàn)視頻量的開(kāi)源數(shù)據(jù)集Webvid,為了和CMD數(shù)據(jù)保持一致,該研究團(tuán)隊(duì)將這一數(shù)據(jù)集中的數(shù)據(jù)也都裁剪到了1-2分鐘;
第三個(gè)數(shù)據(jù)集是一個(gè)擁有13224個(gè)視頻、100000個(gè)問(wèn)答對(duì)話和注解的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量很高,不僅針對(duì)視頻內(nèi)容提供了平均57個(gè)單詞組成的問(wèn)題答案,這些問(wèn)題還涵蓋多種問(wèn)題類型,例如視頻摘要、基于描述的QA,以及時(shí)間、空間、邏輯關(guān)系方面的推理。
由此研發(fā)出的這樣一個(gè)MiniGPT4-Video模型,究竟能有什么用?
該研究團(tuán)隊(duì)在研究過(guò)程中,一共測(cè)試了MiniGPT4-Video三項(xiàng)能力:視頻ChatGPT能力、開(kāi)放式問(wèn)題回答能力、選擇題回答能力。
作為通過(guò)視頻數(shù)據(jù)訓(xùn)練的多模態(tài),MiniGPT4-Video最核心的能力其實(shí)是開(kāi)放式問(wèn)題的回答能力。
就這一能力,至頂網(wǎng)分別找了三個(gè)視頻進(jìn)行了實(shí)際測(cè)試——一個(gè)是由Pika生成的3秒煎肉視頻、一個(gè)是42秒的機(jī)器人演示視頻、一個(gè)是50秒的《老友記》節(jié)選片段。
先說(shuō)測(cè)試結(jié)果,將三個(gè)視頻分別上傳,并對(duì)MiniGPT4-Video進(jìn)行提問(wèn)——“這個(gè)視頻談了什么?”后,最終只有第二個(gè)視頻給出了完整的答案,給出的答案與視頻內(nèi)容基本一致。
由此可見(jiàn),現(xiàn)在的MiniGPT4-Video在做視頻內(nèi)容解析時(shí),不僅對(duì)視頻長(zhǎng)度有要求,對(duì)視頻質(zhì)量同樣有較高的要求,第二個(gè)視頻之所以能有不錯(cuò)的輸出結(jié)果,主要是因?yàn)橐曨l內(nèi)容邏輯性更強(qiáng),而且有一些字幕介紹。
不過(guò),針對(duì)第二個(gè)視頻,我們就同一問(wèn)題進(jìn)行了多次提問(wèn),給出的答案并不一致,這是生成式AI的特性,第二次給出的答案還將視頻中的機(jī)器人識(shí)別成了人,整體描述也出現(xiàn)了錯(cuò)誤。
現(xiàn)在看來(lái),MiniGPT4-Video在實(shí)際使用時(shí),仍會(huì)存在各種各樣的問(wèn)題,還有待研究團(tuán)隊(duì)繼續(xù)調(diào)優(yōu)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
