在WD14反推提示词(tag反推)领域,目前主流好用的模型和工具如下:WD14 ConvNext 基于ConvNext架构的模型,对二次元/动漫风格图片的标签识别准确率较高,支持中英文标签输出。 推荐版本:wd14-convnext-tagger-v3(最新v3版本对色彩、构图等属性识别更精细) 特点:适合批量处理,可输出置信度阈值,兼容Danbooru标签体系。DeepDanbooru 专为Danbooru图库训练的模型,对二次元内容解析能力强,但需注意可能存在部分NSFW标签。 优势:对角色特征(发色、服饰等)和场景分类(室内/室外)识别精准。SwinIR 基于Swin Transformer的模型,适合需要高精度反推的场景,尤其对写实风格图片表现较好。 缺点:硬件要求较高,推理速度较慢。BLIP/BLIP-2 多模态模型,可生成自然语言描述而非单纯标签,适合需要语义化提示词的场景。 适用情况:当用户需要将反推结果直接用于文生图模型(如Stable Diffusion)时更友好。 实操建议:二次元内容优先选WD14 ConvNext v3; 需要语义化描述时用BLIP-2; 对速度敏感可尝试MobileNet轻量版。 本地部署推荐通过diffusers或onnxruntime调用,WebUI用户可使用Tagger插件集成。 (注:具体模型文件可通过Hugging Face或GitHub获取,例如仓库名:toriato/stable-diffusion-webui-wd14-tagger)



































