本文的方法包含两部分条件,strong semantic and weak spatial conditions,也就是面部图片+landmark图片+text
methods
ID Embedding:使用人脸识别模型或者reid模型提取ID Embedding;
Image Adapter:和ip-adapter类似;
IdentityNet:controlnet,但是有一些变化,1)使用五个人脸关键点two for the eyes, one for the nose, and two for the mouth,2)cross attention只以id embedding作为条件,不包含text embedding;
实验
数据:LAION-face 50million+自收集10million
id embedding使用antelopev2 https://github.com/deepinsight/insightface