CLIP

cornpip
|2023. 11. 26. 10:08

CLIP(Contrastive Language-Image Pre-Training)

https://github.com/openai/CLIP

 

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most releva...

github.com

CLIP (Contrastive Language-Image Pre-Training) is a neural network trained on a variety of (image, text) pairs. It can be instructed in natural language to predict the most relevant text snippet, given an image, without directly optimizing for the task, similarly to the zero-shot capabilities of GPT-2 and 3

다양한 이미지-텍스트 쌍에 대해 훈련된 신경망으로 GPT-2 및 3의 제로샷 기능과 유사하게 작업에 직접 최적화하지 않고 이미지가 주어지면 가장 관련성이 높은 텍스트 조각을 예측하도록 자연어로 지시할 수 있습니다. (자연어로 지시할 수 있습니다?)

 

CLIP은  Image encoder에서 추출한 embedding과 text encoder에서 추출한 embedding이 같은 embedding space를 공유하도록 학습하는 것이 주요 목적이다. 그러면 "모자를 쓴 고양이" 라는 text가 실제 모자를 쓴 고양이 사진과 같은 representation vector를 가질 수 있다.

 

그래서 CLIP에선 이미지-라벨이 아니라 이미지-텍스트를 이용한다.

이미지-텍스트 쌍은 수작업으로 매핑하지 않았고 웹 크롤링을 통해 자동으로 이미지와 그에 연관된 자연어 텍스트를 추출하여 4억개의 이미지-텍스트 쌍을 가진 거대 데이터셋을 구축하였다.

 

이미지-텍스트 로 구성된 데이터셋은 정해진 라벨이 없기 때문에 분류 문제로 학습할 수 없다. 따라서 CLIP에서는 주어진 N개의 이미지들과 N개의 텍스트들 사이의 올바른 연결 관계를 찾는 문제로 네트워크를 학습한다.

 

이미지-텍스트 pair를 활용한 사전 학습 기법은 기존에도 존재했다.

image captioning (transformer based) => 모자를 쓰고 달리는 고양이

image captioning (bag of words based) => 모자, 달리다, 고양이

그러나 기존의 분류 모델보다 사이즈가 크고 학습,예측 시간이 오래 걸려 비효율적이었다.

 

CLIP은 이전의 기법과 다르게 이미지-텍스트를 연결하는 방식으로 Contrastive learning을 사용했다.

Contrastive learning은 데이터 내 positive, nagative sample 간의 관계를 학습하는 방법으로 CLIP은 이미지에 맞는 문장을 positive로 맞지 않은 문장을 negative로 embedding하고 positive text와의 유사도는 커지게 negative text와의 유사도는 작아지게 학습된다.

참고 자료

http://dmqm.korea.ac.kr/activity/seminar/365

 

고려대학교 DMQA 연구실

고려대학교 산업경영공학부 데이터마이닝 및 품질애널리틱스 연구실

dmqa.korea.ac.kr

https://dhk1349.tistory.com/11

 

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP)

안녕하세요. 오늘 리뷰할 논문은 OpenAI에서 발표한 Learning Transferable Visual Models From Natural Language Supervision이라는 논문으로, 보통 CLIP이라고 많이 부르기도 합니다. 개인적으로 해당 논문을 기점으

dhk1349.tistory.com

https://inforience.net/2021/02/09/clip_visual-model_pre_training/

 

(CLIP) 텍스트 정보를 이용한 Visual Model Pre-training

클릭 >> Hello, world !! (from ShadowEgo) 이번 포스트에서는 OpenAI 에서 최근 발표한 CLIP 모델[1]을 소개한다. 이미지, 오디오 등과 같은 데이터의 차원(dimension)을 줄이면서도 보다 의미있는 형태로 변환하

inforience.net

 

'AI,ML,Data > Stable Diffusion' 카테고리의 다른 글

Stable Diffuision을 알아보자  (0) 2023.11.21