CLIP 相关工作汇总

1、动作识别相关-Action Recognition

1）ActionClip [1]

ActionCLIP: A New Paradigm for Video Action Recognition

paper code 发表情况：未知

Motivation: 当前常用的固定类别的分类方式，不具备迁移性

Methodology: 变为匹配任务，要注意的是这个方法使用了NLP中的prompt技术，会生成多个语言标签

2、视频文本检索相关-Video-text Retrieval

1）CLIP4Clip [2]

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

paper code 发表情况：Neurocomputing, 2022

Motivation: CLIP中学习到的视觉概念是否能够迁移到video-text的检索任务上？可以

Methodology：探索了三种不同的相似度计算单元

3、图形学相关

1）CLIPasso [3]

CLIPasso: Semantically-Aware Object Sketching, siggraph 2022

paper code 发表情况：siggraph, 2022

Motivation：原有的做简笔画的工作依赖于相关的数据集，或者说数据集的抽象水平决定了生成的抽象水平。目前的研究证明CLIP具备语义概念的知识。

Methodology：用原有的图片生成显著性图，在图里采样关键点，再用一个可微分的rasterizer讲这些点连成简笔画，在利用CLIP去让简笔画图和原图相似度尽量大。

Others：这放两篇我觉得跟特征语义有关的文章，看了之后会对特征到底代表着什么有更深的理解。

Feature Visualization, 2017
Multimodal Neurons in Artificial Neural Networks, 2021

4、数量值任务相关

1） DepthCLIP [4]

Can Language Understand Depth?

paper code 发表情况：acm mm, 2022

Motivation：传统的单目深度估计需要大量的成本在训练模型和标注数据上，CLIP学习到的语义知识是否能够迁移到数量值任务？

Methodology：将具体的距离转化为远、近这样的粗粒度分类。注意在textencoder里要加上prompt的开头。

5、分割任务相关-Segmentation

1） GroupViT [5]

GroupViT: Semantic Segmentation Emerges from Text Supervision

paper code 发表情况：cvpr, 2022

Motivation：基于像素标注监督的语义分割很贵且类别有限，是否能够仅通过文本来监督分割

Methodology：在transformer架构中加入group的token，利用gumbel softmax去给每个patch分token，然后把分到一个token的patch合在一起；反复以上操作多层。在最后做平均，与text embedding做对比学习。

Limitation：在一些样例上发现，对ground和road的这样的背景，分割的效果很好，但往往不能正确得把它们分类成相应的类别。猜测原因是训练中对于背景的描述较少。

2） LSeg [6]

Language-driven Semantic Segmentation

paper code 发表情况：iclr, 2021

Motivation：零样本学习也需要标注新的类，且主要依靠word embedding去发现语言和视觉之间的关系，存在的工作主要关注在image encoder

Methodology：如图所示，基于相似度的对比损失，能够天然的扩充到新的类别。注意冻结text encoder，使用CLIP原始的参数。

Limitation：

当类别过少时，会把置信对最高得类别分给分割出来的区域。与groupvit类似，分割是准的，分类有点问题。
当一个区域中包含多个东西的时候，有可能只给这个区域分一个类别，粒度上可能不够细。

比较GroupViT和LSeg：

区别：GroupViT没有使用分割数据集的label，而是用了Conceptual Caption和Yahoo Flickr Creative Commons这两个描述数据集做监督信号。LSeg使用了分割数据集的label。
区别：GroupViT采取了CLIP的思想来设置对比学习，但没有直接使用CLIP；LSeg直接使用了冻结了的CLIP的text encoder。
区别：GroupViT是句子级别的相似度学习，LSeg是单词级别的相似度学习。
相同：二者都在zero-shot上作了比较，这说明对比学习的zero-shot能力在分割任务上是有效的。
相同：二者都证明了CLIP架构在语义分割上的优越性，但似乎分类上还是有可能出问题，看了paper后觉得，这个问题不来自于CLIP，而来自于目前的分类设定。

6、点云相关-Point

1）PointCLIP [7]

PointCLIP: Point Cloud Understanding by CLIP

paper code 发表情况：cvpr, 2022

Motivation: 对于未见过的类别进行重新训练是不可接受的。2D的CLIP的tranfer能力已经被证明，3D是否可以？

Methodology：把点云映射成不同视角的2D的深度图（上图中是4个视角），然后对这四个视角作了一个交互（文中叫inter-view adapter），然后分别和待选类别的text embedding做相似度计算，最后对各个视角的Logits做加权（权重为超参数）。

7、检测、定位相关-Detection、Grounding

1）ViLD [8]

Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation

paper code 发表情况：iclr, 2022

Motivation：问题一：开词目标检测的新词标注太贵；问题二：目前的方法太费时

Methodology：简单看了一下paper，作者所做的优化是在分类阶段，让最后的图像特征与语言特征做交叉熵。需要注意的是这里的蒸馏是让图片的最后一层embedding学习CLIP中的image encoder的结果。

2）GLIP [9]

Grounded Language-Image Pre-training

paper code 发表情况：cvpr, 2022

Motivation：CLIP在图片层次上展现了强大的视觉表征能力，在物体层次上是否也能做到？

Methodology：将grounding和detection统一起来，同时从网上爬下了大量是图文数据，使得模型能够检测到一些少见的概念。

8、视觉语言模型相关-VPL

1）ViLT [10]

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

paper code 发表情况：icml, 2021

Motivation：问题似乎就是一个，作者认为目前的VLP基础模型的视觉端参数过多，过于耗时。

Methodology:作者采取的是一个单流方法。看起来visual encoder部分就是一个线性层，作者想证明一个线性层就很有能力表征视觉（接SOTA），且速度能快几十倍。

参考文献

[1] Wang M, Xing J, Liu Y. Actionclip: A new paradigm for video action recognition. ArXiv preprint arXiv:2109.08472, 2021.

[2] Luo H, Ji L, Zhong M, et al. CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning. Neurocomputing, 2022.

[3] Vinker Y, Pajouheshgar E, Bo J Y, et al. Clipasso: Semantically-aware object sketching. In Siggraph, 2022.

[4] Zhang R, Zeng Z, Guo Z, et al. Can Language Understand Depth? In ACM MM, 2022.

[5] Xu J, De Mello S, Liu S, et al. GroupViT: Semantic Segmentation Emerges from Text Supervision. In CVPR. 2022.

[6] Li B, Weinberger K Q, Belongie S, et al. Language-driven Semantic Segmentation. In ICLR, 2021.

[7] Zhang R, Guo Z, Zhang W, et al. Pointclip: Point cloud understanding by clip. In CVPR, 2022.

[8] Gu X, Lin T Y, Kuo W, et al. Open-vocabulary Object Detection via Vision and Language Knowledge Distillation. In ICLR, 2021.

[9] Li L H, Zhang P, Zhang H, et al. Grounded language-image pre-training. In CVPR, 2022.

[10] Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision. In ICML, 2021.

If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !

CLIP Related Works

Paper collections.

CLIP 相关工作汇总

1、动作识别相关-Action Recognition

1）ActionClip [1]

2、视频文本检索相关-Video-text Retrieval

1）CLIP4Clip [2]

3、图形学相关

1）CLIPasso [3]

4、数量值任务相关

1） DepthCLIP [4]

5、分割任务相关-Segmentation

1） GroupViT [5]

2） LSeg [6]

6、点云相关-Point

1）PointCLIP [7]

7、检测、定位相关-Detection、Grounding

1）ViLD [8]

2）GLIP [9]

8、视觉语言模型相关-VPL

1）ViLT [10]

参考文献

FEATURED TAGS

FRIENDS

CLIP 相关工作汇总

1、动作识别 相关-Action Recognition

1）ActionClip [1]

2、视频文本检索 相关-Video-text Retrieval

1）CLIP4Clip [2]

3、图形学 相关

1）CLIPasso [3]

4、数量值任务 相关

1） DepthCLIP [4]

5、分割任务 相关-Segmentation

1） GroupViT [5]

2） LSeg [6]

6、点云 相关-Point

1）PointCLIP [7]

7、检测、定位 相关-Detection、Grounding

1）ViLD [8]

2）GLIP [9]

8、视觉语言模型 相关-VPL

1）ViLT [10]

参考文献

FEATURED TAGS

FRIENDS

1、动作识别相关-Action Recognition

2、视频文本检索相关-Video-text Retrieval

3、图形学相关

4、数量值任务相关

5、分割任务相关-Segmentation

6、点云相关-Point

7、检测、定位相关-Detection、Grounding

8、视觉语言模型相关-VPL