13 Matching Annotations
  1. Nov 2023
    1. first synthesize two common kinds of visualreasoning instructions and their outputs, i.e., cross-modalreasoning instruction ⟨X(C)T , Y (C)T ⟩ and outside-knowledgereasoning instruction ⟨X(K)T , Y (K)T ⟩.

      跨模态推理和基于外部知识的推理。然后CIA用迭代的流程来逐渐提示功能复杂程度。

    2. first synthesize two common kinds of visualreasoning instructions and their outputs, i.e., cross-modalreasoning instruction ⟨X(C)T , Y (C)T ⟩ and outside-knowledgereasoning instruction ⟨X(K)T , Y (K)T ⟩.

      跨模态推理和基于外部知识的推理。然后CIA用迭代的流程来逐渐提示功能复杂程度。

    3. 实验分析:

      实验设置:

      评估两个MLLMs,在六个数据集上,, LLaVA-Cap, LLaVA-VQA, LLaVA-Rea, LRV, A-OKVQA, and Shikra。 BLIP-2和MiniGPT-4两个模型。选择这两个模型,是因为没有怎么使用指令集进行微调。

      评估benchmark,MME和SEED-Bench。

      实验结果:

      分成了两组,: (A) LLaVA-Cap (image captioning), LLaVA-VQA (visual question answering), and LLaVA-Rea (visual reasoning); (B) LRV (diversity), A-OKVQA (com- plexity), and Shikra (spatial annotation)。

      从task type的角度,实验结果来看: 1. 在caption任务上训练,带来了明显的性能降低 2. MLLMs在reasoning任务上微调,带来了明显的性能提升。VQA task的训练中规中矩。

      从Instruction特性角度:作者继续分析。作者的实验结果,表明,在A-OKVQA上进行微调,可以明显的提升性能。

      在LRV和shikra上训练,仅带了小幅度的提升。

      综合来看,LLaVA-rea和复杂度,A-OKVQA很有用。

    4. 方法:

      基础介绍:

      考虑到现有模型还没有探索,什么样的Instruction数据集是更有效的,而且什么因素导致了好的Instruction data,暂未有人探索。 考虑到这些问题,作者探索什么是好的visual Instruction这个问题。基于这个目标,作者首先对现有的 visual Instruction set进行了评估,目标是发现关键因素。

      作者主要从task type和Instruction characteristic两个方面来评估。作者选择了六个典型的Instruction dataset,使用两个典型的BLIP2和MiniGPT-4来评估。根据实验结果,作者发现: 1. 对于task type,视觉推理任务对于提升模型的image caption和quetison answering任务很重要。 2. 对于Instruction characteristic,提升Instruction的复杂度更加有帮助对于提升性能,相比task的多样性,以及整合细粒度的标注信息。

      基于上述发现,作者开始构建复杂的视觉推理指令集用于改善模型。

      首先最直接的方法是通过chatgpt和gpt4来优化指令集,基于图像的标注。因为指令集跨跨模态的特性,LLMs可能会过于简单甚至包含本来图片中不存在的物体。 考虑到上述问题,作者提出了一个系统的多阶段的方法,来自动生成visual Instruction数据集。

      输入一张图,根据可以获得标注,caption或者object,作者采用了一种先生成,再复杂化,再在重组的pipeline来生成Instruction。具体的,作者首先,使用特殊的prompt指导prompt来生成一个初始指令。然后使用迭代的方式,复杂化-->验证的方式,来逐步提升Instruction的复杂程度,同时保证质量。最后,将Instruction重组成多种形式,在下游任务重,获得更好的适应性。

      前提条件:

      视觉指令收集:

      任务类型,之前的指令微调的数据集,都是利用带有标注的图片。主要包括一下三个任务类型: 1. Image Caption,生成文本描述 2. VQA任务:需要模型根据问题生成关于图片的回答 3. Visual reasoning:需要模型基于图片内容进行推理。

      为了研究任务类型的影响, 作者考虑一个最常用的指令微调数据集LLaVA-Instruct。作者将其划分成三个子数据集,LLaVA-Caption, LLaVA-VQA and LLaVA-Reasoning。

      指令特性: 指令的特性包括。 * 任务的多样性,已经有工作发现,提升工作的多样性,对于zero-shot能力是有帮助的。可以通过和不同的任务整合来获得此类能力。 * 指令的复杂程度,这是一个被广泛应用的策略,提升LLMs指令集的复杂程度。作者同样使用复杂的多模态做任务,例如,多跳的推理任务,来提升MLLMs的指令遵循能力。 * 细粒度的空间感知。对于MLLMs而言,感知细粒度的空间信息对图片中的特定物体,是必要的。基于这个目标。空间位置的标注可以包括在有文本的指令集中。

    5. Motivation and Contribution:

      Motivation: * 什么样的visual Instruction是一个好的Instruction。基于这个问题,复杂的指令推理任务,对于提升MLLM的性能更加有效。

      Contribution: * 基于这些发现,作者设计了一个系统的方法,来自动的创作高质量的复杂的推理指令集。作者采用了一种生成,复杂化,重构的范式,充分利用多个阶段来猪骨增加指令的复杂度,同时保持质量。 * 基于这些方法,作者创建了一个生成的视觉推理指令数据集,包含32k的示例,命名为ComVint。然后在四个MLLMs模型上微调。实验结果显示,可以明显的提升现有模型的性能。

    6. including onlytuning the connection component (e.g., Q-Former) [9, 20]or additionally tuning the LLMs [1, 26], which depends onthe special design considerations of different MLLMs

      微调的部分有所不同。

    7. Typically, a visual instructionconsists of an image XI , a textual task instruction XT , anda corresponding output text YT . During training, MLLMswould learn to generate the output text YT conditioned onboth the input XI and XT

      指令微调的流程

    8. LLMs may be overlysimplistic or even include hallucinated objects not presentin the image

      生成一些图像中本不存在的东西。

    9. t first glance, it seemsvery straightforward to craft high-quality visual instructionsby prompting ChatGPT1 or GPT-4 [30] based on image an-notations.

      比较常用的方式是如何去做呢,根据图像描述来生成吗。

    10. For task type, visual reasoning task is more helpful inboosting the model performance than image captioningand visual question answering tasks.• For instruction characteristics, increasing the instructioncomplexity is more useful to improve the performance,than enhancing task diversity and integrating fine-grainedannotation information.

      两个发现。对于不同的任务类型,推理任务更有帮助。对于指令的特性,复杂的指令更有用。

    11. In a general form, visual instructions are composed of atarget image, a corresponding task description, and a textoutput [26, 43].

      一般都会采用指令微调

    12. Our approach employsa synthesis-complication-reformulation paradigm, leverag-ing multiple stages to gradually increase the complexity ofthe instructions while guaranteeing quality. Based on thisapproach, we create the synthetic visual reasoning instruc-tion dataset consisting of 32K examples, namely ComVint,and fine-tune four MLLMs on it.

      贡献的详细内容,利用了多个步骤来生成数据集。

    13. Building upon this finding, we design a system-atic approach to automatically creating high-quality com-plex visual reasoning instructions

      论文的Motivation和主要贡献。