본문 바로가기

deeplearning

DINO : Emerging Properties in Self-Supervised Vision Transformers https://arxiv.org/abs/2104.14294 Emerging Properties in Self-Supervised Vision Transformers In this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (convnets). Beyond the fact that adapting self-supervised methods to this architecture works partic arxiv.org CVPR 2021 self-supervised learning이 ViT.. 더보기
MAE:Masked autoencoders are scalable vision learners https://arxiv.org/abs/2111.06377 Masked Autoencoders Are Scalable Vision Learners This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we arxiv.org 2022 CVPR 한줄 요약 : input image에 mask random patch를 .. 더보기
HummingBrid: Towards In-context Scene Understanding Introduction 저자들이 선택한 scene undurstanding task ( 장면에 대한 이해) 의 in context learning의 3가지 구성요소 generality data efficiency fast adaptation NN 검색 method를 이용하여 dense scene undertanding task의 성능 향승을 보임(기존에 취약한 부분) 이를 이용한 retrieval-based decoding mechanism - task specific parameter나 finetuning 필요 x ⇒ standard encoder에 적용하는데 추가적인 노력 불필요 (ResNet 이던 ViT던 적용가능) 모델 성능을 증진하기 위한 두 가지 pretraining components 제시 .. 더보기
(2021 CVPR)DatasetGAN:Efficient Labeled Data Factory with Minimal Human Effort 2021 CVPR DatasetGAN : 적은 놁으로 많은 양의 high quality semantically segmented image 생성하는 GAN 실제 사용가능한 dataset을 생성해내는 능력 decoder만 few labeled example로 학습 시켜 annotated dataset generator로 활용가능 Introduction labeling된 dataset 부족 + 직접 labeling 하는데 소요되는 시간과 자원 어마어마 함 DatasetGAN을 제시하여 이를 해결하고자 함 학습된 GAN의 feature space를 활용하여 pixel-level labeling을 생성하기 위해 decoder 훈련 DatasetGAN pixel-wise annotation task(semanti.. 더보기