裁剪:桃子 润
【新智元导读】秒懂视频的AI出生了!KAUST和哈佛大学商量团队提议MiniGPT4-Video框架,不仅能领悟复杂视频,以至还能作诗配文。
几天前,OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围不雅。
AI视频,已然成为多模态LLM发展的大趋势。
相关词,除了视频生成,让LLM对复杂视频进行领悟,也至关遑急。
最近,来自KAUST和哈佛大学的商量东谈主员提议了MiniGPT4-Video——专为视频领悟而假想的多模态大模子。
论文地址:https://arxiv.org/pdf/2404.03413.pdf
值得一提的是,MiniGPT4-Video玩忽同期处理时态视觉数据和文本数据,因此善于领悟视频的复杂性。
比如,上传一个宝格丽的首饰宣传视频。
MiniGPT4-Video玩忽为其配出标题,宣传语。
再比如,使用作假引擎制作的视频,新模子不错对其进行领悟。
能看出这个视频使用了后期处理和殊效,而不是本色拍摄出来的。
以至,看过一簇簇花绽放的视频,MiniGPT4-video随心作出了超好意思的抒怀诗。
基于MiniGPT-v2,MiniGPT4-video将其智力膨胀到处理帧序列,以便领悟视频。
MiniGPT4-video不仅商量了视觉内容,还纳入了文本对话,使该模子玩忽有用地回答波及视觉和文本内容的查询。
现实服从流露,新步伐在MSVD、MSRVTT、TGIF和TVQA基准上永别擢升了4.22%、1.13%、20.82%和13.1%。
接下来,通盘望望MiniGPT4-video还能作念什么?
更多演示
上传一个宝宝戴眼镜看书的视频后,MiniGPT4-video不错领悟搞笑点在那边。
索要视频中中枢要义,也不在话下。
你还不错让MiniGPT4-Video生成一个创意性的告白。
诠释注解视频亦然超等历害。
MiniGPT4-Video能玩忽领有如斯重大视频解读智力,究竟是怎么作念到的?
时代先容
MiniGPT-v2通过将视觉特征飘荡为LLM空间,从而兑现了对单幅图像的领悟。
他的结构如下图2所示,由于LLM险阻文窗口的为止,每段视频都要进行帧子采样,帧数(N)由LLM的险阻文窗口决定。
随后,使用事前纯熟好的模子EVA-CLIP,将视觉帧与文本形容对皆,然后使用线性层将其映射到大型讲话模子空间。
与MiniGPT-v2通常,商量东谈主员将每幅图像中每四个相邻的视觉token浓缩为一个token,从而将每幅图像的token数减少了 75%,从256个减少到64个。
在纯熟过程中,商量东谈主员会随数据集提供字幕,但在推理过程中或视频莫得字幕时,商量东谈主员会哄骗语音到文本模子(如 whisper)生成视频字幕。
帧字幕使用LLM tokenizer进行token化,将每个采样帧的视觉token和文本token进行一语气。指示token被附加到输入序列的末尾,然后模子输出问题的谜底。
纯熟经过
大范围图像-文本对预纯熟
在第一阶段,商量东谈主员纯熟了一个线性层。
它将由视觉编码器编码的视觉特征(举例 EVACLIP )投影到LLM的文本空间中,并遴荐captioning loss。
商量东谈主员哄骗了一个连合的图像形容数据集,包括来自LAION、宗旨性标题(Conceptual Captions)和SBU的图像,以将视觉特征与LLM的输入空间对皆。
大范围视频-文本对预纯熟
在第二阶段,商量东谈主员使模子通过输入多帧来领悟视频。
具体来说,商量东谈主员从每个视频中抽取最多N帧。在此阶段,商量东谈主员使用以下模板中的预界说指示:
<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>
抽取的帧数取决于每个讲话模子的险阻文窗口,疏淡是关于Llama 2,险阻文窗口是4096个tokens,而Mistral的险阻文窗口是8192个tokens。
在商量东谈主员的步伐中,他们用了64个tokens示意每个图像。
因此,关于Llama 2,商量东谈主员指定N=45帧,疏淡于2880个tokens用于视觉内容示意。
此外,商量东谈主员为字幕分拨1000个tokens,而剩余的tokens用于模子输出。
通常地,在Mistral的情况下,险阻文窗口加倍,N相应地加倍到N=90帧,以确保与膨胀的险阻文窗口兼容。
在此指示中,每个<FrameFeature>都由视觉骨干编码的采样视频帧替换。
<Subtitle text>代表相应帧的字幕,<Instruction>代表商量东谈主员预界说的指示汇集当场采样的指示,包含多种神色的指示,如「简要形容这些视频」。
商量东谈主员使用连合了CMD和WebVid的视频形容数据进行大范围视频形容纯熟。
视频问题解答指示微调
在这一阶段,商量东谈主员遴荐与第二阶段交流的纯熟战略,但重心是哄骗高质地的视频答题数据集进行涵养微调。
这一微调阶段有助于擢升模子解释输入视频和生成精准回话的智力。
解释输入视频并生成相应的问题。模板与第二阶段模板与第二阶段的模板交流,但将 <Instruction> 替换为Video-ChatGPT数据汇集提到的一般问题。
兑现细节
在三个纯熟阶段中,商量东谈主员保抓批大小为4,并使用AdamW优化器连合余弦学习率调遣器,将学习率设置为1e4。
商量东谈主员的视觉骨干是EVA-CLIP,进行了权重冻结。
值得认的确是,商量东谈主员纯熟了线性投影层,并使用LoRA对讲话模子进行了高效微调。
具体来说,商量东谈主员微调了Wq和Wv组件,排行(r)为64,LoRA-alpha值为16。系数模子以一致的224×224像素的图像分辨率进行纯熟,确保了统统阶段的融合性。
多项基准,刷新SOTA
为了对最新提议的架构进行全面评估,商量东谈主员评估了三种基准类型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。
表1所示的VideoChatGPT基准测试中,最新模子在莫得字幕的情况下与之前的步伐不相险阻。
当商量东谈主员将字幕手脚输入时,模子在统统五个维度上都赢得了SOTA。
这考据了商量东谈主员的模子不错哄骗字幕信息,来擢升视频的领悟。
在另外两个基准测试评估中,MiniGPT4-Video赫然优于最新的SOTA步伐。
它在MSVD、MSRVTT、TGIF和TVQA基准上永别兑现了4.22%、1.13%、20.82%和13.1%的显着更变。
带字幕和不带字幕的服从进一步标明,将字幕信息与视觉指示集成可显贵擢升性能,TVQA的准确率从33.9%擢升到54.21%。
定性服从
更多的定性服从,如下图所示。
临了,商量东谈主员还将MiniGPT4-video与VideoChatGPT比拟较。
不错看出,针对一个问题,最新步伐的回话愈加全面。
总之,MiniGPT4-video有用地会通了视频范畴内的视觉和对话领悟,为视频问答提供了一个 引东谈主注有缱绻贬责决策。
不外,弱势在于险阻文窗口为止。
具体来说,面前版块条目Llama 2视频长度为45帧(不到一分半),Mistral版块的视频长度为90帧(不到三分钟)。
因此,下一步商量将模子智力膨胀到处理更长视频的智力。