no image
Segmentation/Detection 방법
Semantic Segmentation classification 신경망에서 FC layer 대신에 Fully Convolution을 거친다. Fully Convolution으로 마무리하면 위치 정보를 그대로 가지고 있고 입력 크기가 자유로워진다. (fc layer는 이전 레이어의 모든 뉴런과 연결되어 있고, 입력 size가 변경되면 가중치 수도 변경되기 때문에, 입력 size가 고정되어 있다.) 결과적으로 위치 정보를 가진 채로 classification을 할 수 있고, 해당하는 픽셀 영역에 어떤 물체가 있는지 알 수 있다. 다만, Conv을 거치면서 spatial dimension이 줄어들었기 때문에, 다시 늘려주기 위한 deconvolution, unpooling 등의 upsample 과정을 거친다..
2024.04.13
no image
CLIP
CLIP(Contrastive Language-Image Pre-Training) https://github.com/openai/CLIP GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most releva.....
2023.11.26
no image
Stable Diffuision을 알아보자
* 파랑은 후에 공부할 것들 Stable Diffusion (안정적 확산) forward diffusion - 이미지에 무작위 노이즈만 남을 때까지 가우스 노이즈를 점진적으로 추가한다. 결국 어떤 이미지인지 식별할 수 없다. reverse diffusion - forward diffusion을 점진적으로 취소한다. 개와 고양이로 학습했다면 취소하는 과정은 개 또는 고양이가 나타나는 방향(drift)으로 흘러갈 것이다. Stable Diffusion 구조 Latent Space(잠재 공간) 512x512, 1024x1024와 같은 사이즈를 그대로 사용하면 연산이 너무 오래 걸린다. 그래서 잠재 공간으로 이미지를 낮은 차원으로 압축한 후 연산을 진행한다. (낮은 차원이란게 무엇인지) 암튼 압축되는 것인데 잠..
2023.11.21