方法：

基础介绍：

考虑到现有模型还没有探索，什么样的Instruction数据集是更有效的，而且什么因素导致了好的Instruction data，暂未有人探索。考虑到这些问题，作者探索什么是好的visual Instruction这个问题。基于这个目标，作者首先对现有的 visual Instruction set进行了评估，目标是发现关键因素。

作者主要从task type和Instruction characteristic两个方面来评估。作者选择了六个典型的Instruction dataset，使用两个典型的BLIP2和MiniGPT-4来评估。根据实验结果，作者发现： 1. 对于task type，视觉推理任务对于提升模型的image caption和quetison answering任务很重要。 2. 对于Instruction characteristic，提升Instruction的复杂度更加有帮助对于提升性能，相比task的多样性，以及整合细粒度的标注信息。

基于上述发现，作者开始构建复杂的视觉推理指令集用于改善模型。

首先最直接的方法是通过chatgpt和gpt4来优化指令集，基于图像的标注。因为指令集跨跨模态的特性，LLMs可能会过于简单甚至包含本来图片中不存在的物体。考虑到上述问题，作者提出了一个系统的多阶段的方法，来自动生成visual Instruction数据集。

输入一张图，根据可以获得标注，caption或者object，作者采用了一种先生成，再复杂化，再在重组的pipeline来生成Instruction。具体的，作者首先，使用特殊的prompt指导prompt来生成一个初始指令。然后使用迭代的方式，复杂化-->验证的方式，来逐步提升Instruction的复杂程度，同时保证质量。最后，将Instruction重组成多种形式，在下游任务重，获得更好的适应性。

前提条件：

视觉指令收集：

任务类型，之前的指令微调的数据集，都是利用带有标注的图片。主要包括一下三个任务类型： 1. Image Caption，生成文本描述 2. VQA任务：需要模型根据问题生成关于图片的回答 3. Visual reasoning：需要模型基于图片内容进行推理。

为了研究任务类型的影响，作者考虑一个最常用的指令微调数据集LLaVA-Instruct。作者将其划分成三个子数据集，LLaVA-Caption, LLaVA-VQA and LLaVA-Reasoning。

指令特性： 指令的特性包括。 * 任务的多样性，已经有工作发现，提升工作的多样性，对于zero-shot能力是有帮助的。可以通过和不同的任务整合来获得此类能力。 * 指令的复杂程度，这是一个被广泛应用的策略，提升LLMs指令集的复杂程度。作者同样使用复杂的多模态做任务，例如，多跳的推理任务，来提升MLLMs的指令遵循能力。 * 细粒度的空间感知。对于MLLMs而言，感知细粒度的空间信息对图片中的特定物体，是必要的。基于这个目标。空间位置的标注可以包括在有文本的指令集中。

GPT 多模态数据生成指令微调 visual Instruction

方法：

基础介绍：

前提条件：

视觉指令收集：

Tags

Annotators

URL

Tags

Annotators

URL