娱乐

ag九游会官方MiniGPT4-video不仅商量了视觉内容-九游会J9·(china)官方网站-真人游戏第一品牌

发布日期:2024-05-13 10:19    点击次数:104

裁剪:桃子 润

【新智元导读】秒懂视频的AI出生了!KAUST和哈佛大学商量团队提议MiniGPT4-Video框架,不仅能领悟复杂视频,以至还能作诗配文。

几天前,OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围不雅。

AI视频,已然成为多模态LLM发展的大趋势。

相关词,除了视频生成,让LLM对复杂视频进行领悟,也至关遑急。

最近,来自KAUST和哈佛大学的商量东谈主员提议了MiniGPT4-Video——专为视频领悟而假想的多模态大模子。

论文地址:https://arxiv.org/pdf/2404.03413.pdf

值得一提的是,MiniGPT4-Video玩忽同期处理时态视觉数据和文本数据,因此善于领悟视频的复杂性。

比如,上传一个宝格丽的首饰宣传视频。

MiniGPT4-Video玩忽为其配出标题,宣传语。

再比如,使用作假引擎制作的视频,新模子不错对其进行领悟。

能看出这个视频使用了后期处理和殊效,而不是本色拍摄出来的。

以至,看过一簇簇花绽放的视频,MiniGPT4-video随心作出了超好意思的抒怀诗。

基于MiniGPT-v2,MiniGPT4-video将其智力膨胀到处理帧序列,以便领悟视频。

MiniGPT4-video不仅商量了视觉内容,还纳入了文本对话,使该模子玩忽有用地回答波及视觉和文本内容的查询。

现实服从流露,新步伐在MSVD、MSRVTT、TGIF和TVQA基准上永别擢升了4.22%、1.13%、20.82%和13.1%。

接下来,通盘望望MiniGPT4-video还能作念什么?

更多演示

上传一个宝宝戴眼镜看书的视频后,MiniGPT4-video不错领悟搞笑点在那边。

索要视频中中枢要义,也不在话下。

你还不错让MiniGPT4-Video生成一个创意性的告白。

诠释注解视频亦然超等历害。

MiniGPT4-Video能玩忽领有如斯重大视频解读智力,究竟是怎么作念到的?

时代先容

MiniGPT-v2通过将视觉特征飘荡为LLM空间,从而兑现了对单幅图像的领悟。

他的结构如下图2所示,由于LLM险阻文窗口的为止,每段视频都要进行帧子采样,帧数(N)由LLM的险阻文窗口决定。

随后,使用事前纯熟好的模子EVA-CLIP,将视觉帧与文本形容对皆,然后使用线性层将其映射到大型讲话模子空间。

与MiniGPT-v2通常,商量东谈主员将每幅图像中每四个相邻的视觉token浓缩为一个token,从而将每幅图像的token数减少了 75%,从256个减少到64个。

在纯熟过程中,商量东谈主员会随数据集提供字幕,但在推理过程中或视频莫得字幕时,商量东谈主员会哄骗语音到文本模子(如 whisper)生成视频字幕。

帧字幕使用LLM tokenizer进行token化,将每个采样帧的视觉token和文本token进行一语气。指示token被附加到输入序列的末尾,然后模子输出问题的谜底。

纯熟经过

大范围图像-文本对预纯熟

在第一阶段,商量东谈主员纯熟了一个线性层。

它将由视觉编码器编码的视觉特征(举例 EVACLIP )投影到LLM的文本空间中,并遴荐captioning loss。

商量东谈主员哄骗了一个连合的图像形容数据集,包括来自LAION、宗旨性标题(Conceptual Captions)和SBU的图像,以将视觉特征与LLM的输入空间对皆。

大范围视频-文本对预纯熟

在第二阶段,商量东谈主员使模子通过输入多帧来领悟视频。

具体来说,商量东谈主员从每个视频中抽取最多N帧。在此阶段,商量东谈主员使用以下模板中的预界说指示:

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的帧数取决于每个讲话模子的险阻文窗口,疏淡是关于Llama 2,险阻文窗口是4096个tokens,而Mistral的险阻文窗口是8192个tokens。

在商量东谈主员的步伐中,他们用了64个tokens示意每个图像。

因此,关于Llama 2,商量东谈主员指定N=45帧,疏淡于2880个tokens用于视觉内容示意。

此外,商量东谈主员为字幕分拨1000个tokens,而剩余的tokens用于模子输出。

通常地,在Mistral的情况下,险阻文窗口加倍,N相应地加倍到N=90帧,以确保与膨胀的险阻文窗口兼容。

在此指示中,每个<FrameFeature>都由视觉骨干编码的采样视频帧替换。

<Subtitle text>代表相应帧的字幕,<Instruction>代表商量东谈主员预界说的指示汇集当场采样的指示,包含多种神色的指示,如「简要形容这些视频」。

商量东谈主员使用连合了CMD和WebVid的视频形容数据进行大范围视频形容纯熟。

视频问题解答指示微调

在这一阶段,商量东谈主员遴荐与第二阶段交流的纯熟战略,但重心是哄骗高质地的视频答题数据集进行涵养微调。

这一微调阶段有助于擢升模子解释输入视频和生成精准回话的智力。

解释输入视频并生成相应的问题。模板与第二阶段模板与第二阶段的模板交流,但将 <Instruction> 替换为Video-ChatGPT数据汇集提到的一般问题。

兑现细节

在三个纯熟阶段中,商量东谈主员保抓批大小为4,并使用AdamW优化器连合余弦学习率调遣器,将学习率设置为1e4。

商量东谈主员的视觉骨干是EVA-CLIP,进行了权重冻结。

值得认的确是,商量东谈主员纯熟了线性投影层,并使用LoRA对讲话模子进行了高效微调。

具体来说,商量东谈主员微调了Wq和Wv组件,排行(r)为64,LoRA-alpha值为16。系数模子以一致的224×224像素的图像分辨率进行纯熟,确保了统统阶段的融合性。

多项基准,刷新SOTA

为了对最新提议的架构进行全面评估,商量东谈主员评估了三种基准类型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。

表1所示的VideoChatGPT基准测试中,最新模子在莫得字幕的情况下与之前的步伐不相险阻。

当商量东谈主员将字幕手脚输入时,模子在统统五个维度上都赢得了SOTA。

这考据了商量东谈主员的模子不错哄骗字幕信息,来擢升视频的领悟。

在另外两个基准测试评估中,MiniGPT4-Video赫然优于最新的SOTA步伐。

它在MSVD、MSRVTT、TGIF和TVQA基准上永别兑现了4.22%、1.13%、20.82%和13.1%的显着更变。

带字幕和不带字幕的服从进一步标明,将字幕信息与视觉指示集成可显贵擢升性能,TVQA的准确率从33.9%擢升到54.21%。

定性服从

更多的定性服从,如下图所示。

临了,商量东谈主员还将MiniGPT4-video与VideoChatGPT比拟较。

不错看出,针对一个问题,最新步伐的回话愈加全面。

总之,MiniGPT4-video有用地会通了视频范畴内的视觉和对话领悟,为视频问答提供了一个 引东谈主注有缱绻贬责决策。

不外,弱势在于险阻文窗口为止。

具体来说,面前版块条目Llama 2视频长度为45帧(不到一分半),Mistral版块的视频长度为90帧(不到三分钟)。

因此,下一步商量将模子智力膨胀到处理更长视频的智力。