-
Vision, Language encoder : CLIP꺼 fix.
Style, Mapping(style이미지에서 style하나씩 추출 인듯), content Encoder , prompt : 학습
STEP
1. 정해준 text candidate과 style간의 similarity 순으로 top k개만 multi-hot style domain label 만듬
2. style encoder에서 각 style 추출
3. 1, 2 representation을 aggregate
4. 3과 content image 로 output 만듦
(step1 에서 prompt learning이 일어남)
내 생각class supervision이 없으면 prompt learning을 할 수가 없겠음-> 할 수 있음. domain consistency or adversarial loss 로 학습. lsun car 도 yellow car 이런식으로 어거지 text candidate 만들고 prompt learning 함
하지만 unseen class 첨 들어오는 AED의 경우 training phase가 없음. prompt learning 이 불가능해서 CoOp 못씀