你的位置：九游会J9·(china)官方网站-真人游戏第一品牌 > 娱乐 >

ag九游会官方MiniGPT4-video不仅商量了视觉内容-九游会J9·(china)官方网站-真人游戏第一品牌

发布日期：2024-05-13 10:19 点击次数：114

裁剪：桃子润

【新智元导读】秒懂视频的AI出生了！KAUST和哈佛大学商量团队提议MiniGPT4-Video框架，不仅能领悟复杂视频，以至还能作诗配文。

几天前，OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight，引全网围不雅。

AI视频，已然成为多模态LLM发展的大趋势。

相关词，除了视频生成，让LLM对复杂视频进行领悟，也至关遑急。

最近，来自KAUST和哈佛大学的商量东谈主员提议了MiniGPT4-Video——专为视频领悟而假想的多模态大模子。

论文地址：https://arxiv.org/pdf/2404.03413.pdf

值得一提的是，MiniGPT4-Video玩忽同期处理时态视觉数据和文本数据，因此善于领悟视频的复杂性。

比如，上传一个宝格丽的首饰宣传视频。

MiniGPT4-Video玩忽为其配出标题，宣传语。

再比如，使用作假引擎制作的视频，新模子不错对其进行领悟。

能看出这个视频使用了后期处理和殊效，而不是本色拍摄出来的。

以至，看过一簇簇花绽放的视频，MiniGPT4-video随心作出了超好意思的抒怀诗。

基于MiniGPT-v2，MiniGPT4-video将其智力膨胀到处理帧序列，以便领悟视频。

MiniGPT4-video不仅商量了视觉内容，还纳入了文本对话，使该模子玩忽有用地回答波及视觉和文本内容的查询。

现实服从流露，新步伐在MSVD、MSRVTT、TGIF和TVQA基准上永别擢升了4.22%、1.13%、20.82%和13.1%。

接下来，通盘望望MiniGPT4-video还能作念什么？

更多演示

上传一个宝宝戴眼镜看书的视频后，MiniGPT4-video不错领悟搞笑点在那边。

索要视频中中枢要义，也不在话下。

你还不错让MiniGPT4-Video生成一个创意性的告白。

诠释注解视频亦然超等历害。

MiniGPT4-Video能玩忽领有如斯重大视频解读智力，究竟是怎么作念到的？

时代先容

MiniGPT-v2通过将视觉特征飘荡为LLM空间，从而兑现了对单幅图像的领悟。

他的结构如下图2所示，由于LLM险阻文窗口的为止，每段视频都要进行帧子采样，帧数（N）由LLM的险阻文窗口决定。

随后，使用事前纯熟好的模子EVA-CLIP，将视觉帧与文本形容对皆，然后使用线性层将其映射到大型讲话模子空间。

与MiniGPT-v2通常，商量东谈主员将每幅图像中每四个相邻的视觉token浓缩为一个token，从而将每幅图像的token数减少了 75%，从256个减少到64个。

在纯熟过程中，商量东谈主员会随数据集提供字幕，但在推理过程中或视频莫得字幕时，商量东谈主员会哄骗语音到文本模子（如 whisper）生成视频字幕。

帧字幕使用LLM tokenizer进行token化，将每个采样帧的视觉token和文本token进行一语气。指示token被附加到输入序列的末尾，然后模子输出问题的谜底。

纯熟经过

大范围图像-文本对预纯熟

在第一阶段，商量东谈主员纯熟了一个线性层。

它将由视觉编码器编码的视觉特征（举例 EVACLIP ）投影到LLM的文本空间中，并遴荐captioning loss。

商量东谈主员哄骗了一个连合的图像形容数据集，包括来自LAION、宗旨性标题（Conceptual Captions）和SBU的图像，以将视觉特征与LLM的输入空间对皆。

大范围视频-文本对预纯熟

在第二阶段，商量东谈主员使模子通过输入多帧来领悟视频。

具体来说，商量东谈主员从每个视频中抽取最多N帧。在此阶段，商量东谈主员使用以下模板中的预界说指示：

抽取的帧数取决于每个讲话模子的险阻文窗口，疏淡是关于Llama 2，险阻文窗口是4096个tokens，而Mistral的险阻文窗口是8192个tokens。

在商量东谈主员的步伐中，他们用了64个tokens示意每个图像。

因此，关于Llama 2，商量东谈主员指定N=45帧，疏淡于2880个tokens用于视觉内容示意。

此外，商量东谈主员为字幕分拨1000个tokens，而剩余的tokens用于模子输出。

通常地，在Mistral的情况下，险阻文窗口加倍，N相应地加倍到N=90帧，以确保与膨胀的险阻文窗口兼容。

在此指示中，每个<FrameFeature>都由视觉骨干编码的采样视频帧替换。

<Subtitle text>代表相应帧的字幕，<Instruction>代表商量东谈主员预界说的指示汇集当场采样的指示，包含多种神色的指示，如「简要形容这些视频」。

商量东谈主员使用连合了CMD和WebVid的视频形容数据进行大范围视频形容纯熟。

视频问题解答指示微调

在这一阶段，商量东谈主员遴荐与第二阶段交流的纯熟战略，但重心是哄骗高质地的视频答题数据集进行涵养微调。

这一微调阶段有助于擢升模子解释输入视频和生成精准回话的智力。

解释输入视频并生成相应的问题。模板与第二阶段模板与第二阶段的模板交流，但将 <Instruction> 替换为Video-ChatGPT数据汇集提到的一般问题。

兑现细节

在三个纯熟阶段中，商量东谈主员保抓批大小为4，并使用AdamW优化器连合余弦学习率调遣器，将学习率设置为1e4。

商量东谈主员的视觉骨干是EVA-CLIP，进行了权重冻结。

值得认的确是，商量东谈主员纯熟了线性投影层，并使用LoRA对讲话模子进行了高效微调。

具体来说，商量东谈主员微调了Wq和Wv组件，排行(r)为64，LoRA-alpha值为16。系数模子以一致的224×224像素的图像分辨率进行纯熟，确保了统统阶段的融合性。

多项基准，刷新SOTA

为了对最新提议的架构进行全面评估，商量东谈主员评估了三种基准类型的性能：Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。

表1所示的VideoChatGPT基准测试中，最新模子在莫得字幕的情况下与之前的步伐不相险阻。

当商量东谈主员将字幕手脚输入时，模子在统统五个维度上都赢得了SOTA。

这考据了商量东谈主员的模子不错哄骗字幕信息，来擢升视频的领悟。

在另外两个基准测试评估中，MiniGPT4-Video赫然优于最新的SOTA步伐。

它在MSVD、MSRVTT、TGIF和TVQA基准上永别兑现了4.22%、1.13%、20.82%和13.1%的显着更变。

带字幕和不带字幕的服从进一步标明，将字幕信息与视觉指示集成可显贵擢升性能，TVQA的准确率从33.9%擢升到54.21%。

定性服从

更多的定性服从，如下图所示。

临了，商量东谈主员还将MiniGPT4-video与VideoChatGPT比拟较。

不错看出，针对一个问题，最新步伐的回话愈加全面。

总之，MiniGPT4-video有用地会通了视频范畴内的视觉和对话领悟，为视频问答提供了一个引东谈主注有缱绻贬责决策。

不外，弱势在于险阻文窗口为止。

具体来说，面前版块条目Llama 2视频长度为45帧（不到一分半），Mistral版块的视频长度为90帧（不到三分钟）。

因此，下一步商量将模子智力膨胀到处理更长视频的智力。