VLM : Applications
28 May 2024 | Multimodal
Vision Language Model은 이미지와 텍스트를 입력받아 두 데이터를 이애하여 특정 task를 수행하는 모델이다. Vision Language Model이 수행하는 task의 종류는 매우 다양하다. Vision Language Model의 task를 정리하는 이유는 task에 따른 input과 output에 의해 model의 구조가 달라지기 때문이다.
1. Generation Task
1.1 Visual Question Answering

Illustrated by the author
image (혹은 video)와 해당 image에 대한 질문을 text로 입력받아 text로 질문에 대한 답을 반환하는 task.
예를 들어 아래 그림에 대해 “저 꽃은 무슨 색인가요?”라는 질문을 하고 “주황색”이라는 답변을 받는 task이다.

Openai Image generator
1.2 Visual Captioning and Description

Illustrated by the author
image에 대한 설명을 생성하는 task. image를 입력 받아 text로 설명을 반환하거나, image와 prompt를 함께 입력 받아 설명을 반환할 수도 있다.
1.3 Identifying Objects in Images with Textual Cues

Illustrated by the author
image와 그에 대한 설명을 입력 받아 설명에 등장한 객체를 이미지 내에서 찾아내는 task.
예를 들어 아래 그림과 함께 “사람이 물을 마시고 있다” 라는 caption을 입력받으면 입력된 텍스트 정보 내에 등장한 객체(“사람” 과 “물”)을 이미지 내에서 찾는 task이다.

Openai Image generator
1.4 Visual Commonsense Reasoning
image를 입력 받아 image 내의 객체를 식별한 후 객체 간의 관계를 파악하여 이미지에 나타난 객체들의 상관관계를 상세히 설명하는 task.

https://visualcommonsense.com/
1.5 Visual Summarization
image를 입력 받아 이미지에 대한 설명을 간략하게 요약하는 task. 이 과제를 수행하기 위해서 model은 image 내 객체와 객체간의 관계를 잘 파악하고 그에 대한 설명을 잘 요약하는 능력이 있어야 한다.
1.6 Visual Generation

https://visualcommonsense.com/
생성하고자 하는 image에 대한 설명이나 prompt를 텍스트로 입력받아 image를 생성하는 task.
2. Retrieval Tasks
2.1 Vision-Language Navigation (VLN)
Vision-Language model에 text 혹은 image가 포함된 질문을 받아 답변을 도출하는 task. 이와 같은 taks는 어떠한 물품에 대한 설명 혹은 유사한 물품에 대한 이미지 정보가 입력되면 마트 같은 곳에서 해당 물건과 그 물건의 위치를 반환하는 시스템에 활용될 수 있다.
Vision Language Model은 이미지와 텍스트를 입력받아 두 데이터를 이애하여 특정 task를 수행하는 모델이다. Vision Language Model이 수행하는 task의 종류는 매우 다양하다. Vision Language Model의 task를 정리하는 이유는 task에 따른 input과 output에 의해 model의 구조가 달라지기 때문이다.
1. Generation Task
1.1 Visual Question Answering
image (혹은 video)와 해당 image에 대한 질문을 text로 입력받아 text로 질문에 대한 답을 반환하는 task.
예를 들어 아래 그림에 대해 “저 꽃은 무슨 색인가요?”라는 질문을 하고 “주황색”이라는 답변을 받는 task이다.
1.2 Visual Captioning and Description
image에 대한 설명을 생성하는 task. image를 입력 받아 text로 설명을 반환하거나, image와 prompt를 함께 입력 받아 설명을 반환할 수도 있다.
1.3 Identifying Objects in Images with Textual Cues
image와 그에 대한 설명을 입력 받아 설명에 등장한 객체를 이미지 내에서 찾아내는 task.
예를 들어 아래 그림과 함께 “사람이 물을 마시고 있다” 라는 caption을 입력받으면 입력된 텍스트 정보 내에 등장한 객체(“사람” 과 “물”)을 이미지 내에서 찾는 task이다.
1.4 Visual Commonsense Reasoning
image를 입력 받아 image 내의 객체를 식별한 후 객체 간의 관계를 파악하여 이미지에 나타난 객체들의 상관관계를 상세히 설명하는 task.
1.5 Visual Summarization
image를 입력 받아 이미지에 대한 설명을 간략하게 요약하는 task. 이 과제를 수행하기 위해서 model은 image 내 객체와 객체간의 관계를 잘 파악하고 그에 대한 설명을 잘 요약하는 능력이 있어야 한다.
1.6 Visual Generation
생성하고자 하는 image에 대한 설명이나 prompt를 텍스트로 입력받아 image를 생성하는 task.
2. Retrieval Tasks
2.1 Vision-Language Navigation (VLN)
Vision-Language model에 text 혹은 image가 포함된 질문을 받아 답변을 도출하는 task. 이와 같은 taks는 어떠한 물품에 대한 설명 혹은 유사한 물품에 대한 이미지 정보가 입력되면 마트 같은 곳에서 해당 물건과 그 물건의 위치를 반환하는 시스템에 활용될 수 있다.