ABOUT ME

notou10@yonsei.ac.kr

Today
Yesterday
Total
  • LANIT
    카테고리 없음 2023. 1. 30. 21:41



    Vision, Language encoder : CLIP꺼 fix.
    Style, Mapping(style이미지에서 style하나씩 추출 인듯), content Encoder , prompt : 학습

    STEP
    1. 정해준 text candidate과 style간의 similarity 순으로 top k개만 multi-hot style domain label 만듬
    2. style encoder에서 각 style 추출
    3. 1, 2 representation을 aggregate
    4. 3과 content image 로 output 만듦

    (step1 에서 prompt learning이 일어남)

    내 생각
    class supervision이 없으면 prompt learning을 할 수가 없겠음
    -> 할 수 있음. domain consistency or adversarial loss 로 학습. lsun car 도 yellow car 이런식으로 어거지 text candidate 만들고 prompt learning 함

    하지만 unseen class 첨 들어오는 AED의 경우 training phase가 없음. prompt learning 이 불가능해서 CoOp 못씀


Designed by Tistory.