高效Transformer、計算機視覺的總結與展望
論文綜述: 文章主旨:在本文中,我們回顧了這些視覺Transformer模型,將它們分為不同的任務,并分析了它們的優缺點。我們探討的主要類別包括主干網絡、高/中級視覺、低級視覺和視頻處理。我們還包括有效的Transformer方法,用于將Transformer推進基于設備的實際應用。此外,我們還簡要介紹了計算機視覺中的自我注意機制,因為它是Transformer的基本組成部分。在本文的最后,我們討論了視覺Transformer面臨的挑戰,并提供了幾個進一步的研究方向。
其他章節: Transformer綜述(A Survey on Vision Transformer) 閱讀學習筆記(一)----transformer的發展,transformer的基本結構和原理
【資料圖】
Transformer綜述(A Survey on Vision Transformer) 閱讀學習筆記(三)–Transformer應用的圖像處理與視頻處理的研究
Transformer綜述(A Survey on Vision Transformer) 閱讀學習筆記(四)-- 高效Transformer、計算機視覺的自注意力、Transformer的總結與展望
A Survey on Vision Transformer
3. VISION TRANSFORMER 視覺Transformer3.1 Backbone for Representation Learning 表征學習的主干網3.1.1 Pure Transformer3.1.2 Transformer with Convolution 卷積Transformer3.1.3 Self-supervised Representation Learning 自監督表征學習3.1.4 Discussions 3.2 High/Mid-level Vision 高中級視覺3.2.1 Generic Object Detection 通用對象檢測3.2.2 Segmentation 分割3.2.3 Pose Estimation 姿態估計3.2.4 Other Tasks 其他任務3.2.5 Discussions
3. VISION TRANSFORMER 視覺Transformer
在本節中,我們將回顧基于Transformer的模型在計算機視覺中的應用,包括圖像分類、高/中級視覺、低級視覺和視頻處理。我們還簡要總結了自我注意機制和模型壓縮方法在高效變壓器中的應用。
3.1 Backbone for Representation Learning 表征學習的主干網
受該Transformer在NLP領域取得的成功啟發,一些研究人員探索了類似模型是否可以學習圖像的有用表示。與文本相比,圖像涉及更多維度、噪聲和冗余模態,因此它們被認為更難進行生成建模。
除了CNN,該Transformer還可以用作圖像分類的主干網絡。Wuet等人[240]將ResNet作為一個方便的基線,并使用視覺Transformer來取代卷積的最后一個階段。具體來說,他們應用卷積層來提取低級特征,然后將其輸入視覺Transformer。對于vision transformer,他們使用一個標記來將像素分組為少量視覺標記,每個標記代表圖像中的一個語義概念。這些視覺標記直接用于圖像分類,Transformer用于模擬標記之間的關系。如下圖所示,這些作品可以分為純粹使用transformer進行視覺,以及將CNN和transformer相結合。我們在表3和圖7-8中總結了這些模型的結果,以展示主干的發展。除了監督學習,視覺transformer中還探索了自我監督學習。
Visual transformers: Token-based image representation and processing for computer vision.arXiv preprint arXiv:2006.03677,2020.
3.1.1 Pure Transformer
ViT.Dosovitskiyet等人[55]最近提出了視覺Transformer (ViT),它是一種純變換器,當直接應用于圖像塊序列時,可以很好地執行圖像分類任務。它們盡可能遵循transformer的原始設計。下圖顯示了ViT的框架。
An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021
要處理2D圖像, i m a g e ∈ R h × w × c image \in R^{\ h×w×c} image∈R h×w×c被重塑成一系列扁平的2D塊(patch): X P ∈ R n × ( p 2 ? c ) X_P \in R^{\ n×(p^2 \cdot c)} XP∈R n×(p2?c) 其中,c表示通道數,(h,w)是原始圖像的分辨率,而(p,p)是圖像塊的分辨率。因此,Transformer 的有效序列長度為: n = ( h ? w ) / p 2 n = (h \cdot w) / p^2 n=(h?w)/p2因為transformer在其所有層提出使用恒定寬度,所以可訓練線性投影將每個矢量化路徑映射到模型維度,其輸出稱為面片嵌入。
與BERT的[class]標記類似,可學習的嵌入被應用于嵌入補丁的序列。該嵌入狀態用作圖像表示。在預訓練和微調階段,分類頭的尺寸相同。此外,將1D位置嵌入添加到面片嵌入中,以保留位置信息。Dosovitskiyet等人探索了位置嵌入的不同2D感知變體,這些變體都沒有比標準的1D位置嵌入產生任何顯著的收益。接頭嵌入件作為編碼器的輸入斷開。值得注意的是,ViT僅使用標準變壓器的編碼器(層標準化位置除外),其輸出先于MLP頭。
在大多數情況下,ViT是在大型數據集上預先訓練的,然后針對較小的下游任務進行微調。為此,移除預先訓練好的預測頭,并附加一個初始化為零的d×k前饋層,其中k是下游類的數量。在微調階段使用比訓練前更高的分辨率通常是有益的。例如,當饋送更高分辨率的圖像時,即使面片大小保持不變,也可以獲得更大的有效序列長度。雖然ViT可以處理任意序列長度,但預先訓練的位置嵌入可能不再有意義。因此,Dosovitskiyet等人根據預訓練位置嵌入在原始圖像中的位置對其執行2D插值。請注意,只有在分辨率調整和面片提取期間,才會將有關圖像2D結構的感應偏差手動注入ViT。
當在中型數據集(如ImageNet)上進行訓練時,ViT會產生適度的結果,精確度比同等大小的RESNET低幾個百分點。由于變壓器缺乏CNN固有的一些感應偏差,例如平移等變和局部性,因此在數據量不足的情況下,transformer不能很好地概括。然而,作者發現,在大數據集(1400萬到3億張圖像)上訓練模型超過了歸納偏差。當以足夠大的規模進行預培訓時,變壓器在數據點較少的任務上取得了優異的效果。例如,當在JFT-300M數據集上進行預訓練時,ViT在多個圖像識別基準上接近甚至超過了最先進的性能。具體來說,它的準確度達到了88.36%在ImageNet上。在CIFAR-10達到99.50%;在CIFAR-100達到94.55;在VTAB套件的19項任務中達到77.16%。
Touvronet al.[219]通過僅在ImageNet數據庫上進行訓練,提出了一種競爭性的無卷積transformer,稱為數據高效圖像變壓器(DeiT)。參考視覺轉換器DeiT-B與ViT-B的結構相同,使用了8600萬個參數。憑借強大的數據增強功能,DeiTB的準確度達到了83.1%(單一作物評估)在ImageNet上,無外部數據。此外,作者觀察到,使用CNN教師比使用transformer表現更好。具體地說,Deit-B可以在基于令牌的精餾的幫助下達到TOP-1準確率84.40%。
Training data-efficient image transformers & distillation through attention. InICML, 2020
Variants of ViT. VIT的變體在VIT范式的指導下,人們提出了一系列VIT的變體來提高視覺任務的績效。主要途徑包括增強地域性、提高自覺性和建筑設計。 原有的視覺轉換器擅長捕捉面片之間的遠程依賴關系,但忽略了局部特征提取,因為2D面片被投影到具有簡單線性層的矢量上。近年來,研究人員開始注重提高對局部信息的建模能力[85]、[148]、[26]。TNT[85]進一步將補丁劃分為若干子補丁,并引入了一種新的變壓器-變壓器架構,該架構利用內部變壓器塊來建模子補丁與外部變壓器塊之間的關系,以進行補丁級別的信息交換。Twins[43]和CA-T[137]層層交替地執行局部和全局注意。Swin Transformers[148],[54]在窗口內執行局部注意,并為跨窗口連接引入了移位窗口分區方法。ShuffleTransformer[105]、[63]進一步利用空間混洗操作而不是移位窗口劃分來允許跨窗口連接。RegionViT[26]從圖像生成區域標記和局部標記,并且局部標記通過關注區域標記來接收全局信息。除了局部關注外,還有一些工作提出通過局部特征聚合來提高局部信息,如T2T[260]。這些工作展示了視覺變壓器的局部信息交換和全局信息交換的好處。
[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021[26]: Regionvit: Regional-to-local attention for vision transformers.arXiv preprint arXiv:2106.02689, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021.[137]: Cat: Cross attention in vision transformer.arXiv preprint arXiv:2106.05786, 2021.[54]: Cswin transformer: A general vision transformer backbone with cross-shaped windows.arXiv preprint arXiv:2107.00652, 2021.[105]: Shuffle transformer: Rethinking spatial shuffle for vision transformer.arXiv preprint arXiv:2106.03650, 2021.[63]: Msgtransformer: Exchanging local spatial information by manipulating messenger tokens.arXiv preprint arXiv:2105.15168, 2021.[260]: Tokens-to-token vit: Training vision transformers from scratch on imagenet. InICCV, 2021.
作為transformer的關鍵組件,自我注意層提供了圖像塊之間全局交互的能力。提高自我注意層的計算能力吸引了許多研究者。Deep ViT[286]建議建立十字頭通信,以重新生成注意力地圖,以增加不同層的多樣性。KVT[230]引入了k-NN注意,利用圖像補丁的局部性,并通過僅使用頂級K相似標記計算注意來忽略噪聲標記。Refiner[287]探索了高維空間中的注意力擴展,并應用卷積來增強注意力地圖的局部模式。XCiT[56]跨功能通道而不是令牌執行自我注意計算,這允許高效處理高分辨率圖像。自注意機制的計算復雜度和注意精度是未來優化的兩個關鍵點。
[286]: Deepvit: Towards deeper vision transformer.arXiv preprint arXiv:2103.11886, 2021.[230]: Kvt: k-nn attention for boosting vision transformers.arXiv preprint arXiv:2106.00515, 2021.[287]: Refiner: Refining self-attention for vision transformers.arXiv preprint arXiv:2106.03714, 2021.[56]: Xcit: Cross-covariance image transformers.arXiv preprint arXiv:2106.09681, 2021.
網絡體系結構是CNN領域的重要因素。ViT最初的架構是由相同形狀的transformer塊組成的簡單堆棧。視覺transformer的新架構設計一直是一個有趣的話題。許多視覺變換器模型[232]、[148]、[209]、[61]、[279]、[167]都使用了金字塔狀結構,包括PVT[232]、HVT[168]、Swin transformer[148]和PiT[92]。還有其他類型的體系結構,例如雙流體系結構[25]和U-net體系結構[237],[17]。神經結構搜索(NAS)也被用來搜索更好的transformer結構,例如Scaling ViT[269]、ViTAS[205]、AutoFormer[28]和GLiT[24]。目前,vision transformer的網絡設計和NAS主要借鑒CNN的經驗。在未來,我們期待著視覺轉換器領域出現具體而新穎的架構。
[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[209]: Visual parser: Representing part-whole hierarchies with transformers. 2021.[61]: Multiscale vision transformers.arXiv preprint arXiv:2104.11227, 2021.[279]: Aggregating nested transformers.arXiv preprint arXiv:2105.12723, 2021.[167]: Less is more: Pay less attention in vision transformers.arXiv preprint arXiv:2105.14217,2021.[168]: Scalable visual transformers with hierarchical pooling.arXiv preprint arXiv:2103.10619,2021.[92]: Rethinking spatial dimensions of vision transformers. InICCV, 2021.[25]: Crossvit: Cross-attention multi-scale vision transformer for image classification.arXiv preprintarXiv:2103.14899, 2021. [237]: Uformer: A general u-shaped transformer for image restoration.arXiv preprint arXiv:2106.03106, 2021.[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[269]: Scaling vision transformers.arXiv preprint arXiv:2106.04560, 2021.[205]: Vision transformer architecture search.arXiv preprint arXiv:2106.13700, 2021.[28]: Autoformer: Searching transformers for visual recognition.arXiv preprint arXiv:2107.00651, 2021.[24]: Glit: Neural architecture search for global and local image transformer. arXiv preprint arXiv:2107.02960, 2021.
除了上述方法,還有一些其他方向可以進一步改進視覺transformer,例如位置編碼[44]、[242]、標準化策略[220]、快捷連接[215]和消除注意[217]、[158]、[79]、[218]。
[44]: Conditional positional encodings for vision transformers.arXiv preprintarXiv:2102.10882, 2021.[242]: Rethinking andimproving relative position encoding for vision transformer. InICCV,2021.[220]: Going deeper with image transformers.arXiv preprint arXiv:2103.17239,2021.[215]: Augmented shortcuts for vision transformers.arXiv preprint arXiv:2106.15941, 2021.[217]: Mlp-mixer: An all-mlp architecture for vision.arXiv preprint arXiv:2105.01601, 2021.[158]: Do you even need attention? a stack of feedforward layers does surprisingly well on imagenet.arXiv preprint arXiv:2105.02723, 2021.[79]: Beyond self-attention: External attention using two linear layers for visual tasks.arXiv preprint arXiv:2105.02358, 2021.[128]: Object detection based on an adaptive attention mechanism.Scientific Reports, pages 1–13, 2020.
上表格ImageNet代表CNN和vision transformer模型的結果比較。在[219]、[148]之后,在NVIDIA V100 GPU和Pytork上測量吞吐量,輸入大小為224×224。純Transformer意味著在stem階段只使用幾個卷積。CNN Transformer意味著在中間層使用卷積。
3.1.2 Transformer with Convolution 卷積Transformer
盡管視覺轉換器能夠捕獲輸入中的長期依賴關系,因此已成功應用于各種視覺任務,但在轉換器和現有CNN之間仍存在性能差距。一個主要原因可能是缺乏提取本地信息的能力。除了上述增強局部性的ViT變體外,將變換器與卷積相結合是將局部性引入常規變換器的更直接的方法。
有很多工作試圖用卷積來增強傳統的變壓器塊或自我注意層。例如,CPVT[44]提出了一種條件位置編碼(CPE)方案,該方案以輸入標記的局部鄰域為條件,并適用于任意輸入大小,以利用卷積進行精細特征編碼。CvT[241]、CeiT[259]、LocalViT[132]和CMT[77]分析了直接從NLP借用變壓器架構并將卷積與變壓器結合在一起時可能存在的缺點。具體而言,每個轉換器塊中的前饋網絡(FFN)與卷積層相結合,卷積層促進相鄰令牌之間的相關性。LeViT[75]回顧了CNN大量文獻中的原理,并將其應用于變壓器,提出了一種用于快速推理圖像分類的混合神經網絡。BoTNet[202]在ResNet的最后三個瓶頸塊中,用全局自我關注取代了空間卷積,并在實例分割和對象檢測任務上顯著改進了基線,延遲開銷最小。
[44]:Conditional positional encodings for vision transformers.arXiv preprint arXiv:2102.10882, 2021.[241]: Cvt: Introducing convolutions to vision transformers.arXiv preprint arXiv:2103.15808, 2021.[259]: Incorporating convolution designs into visual transformers.arXiv preprint arXiv:2103.11816, 2021.[132]: ocalvit: Bringing locality to vision transformers.arXiv preprint arXiv:2104.05707, 2021.[77]: Cmt: Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021[202]: Bottleneck transformers for visual recognition. InCVPR, pages 16519–16529, 2021
此外,一些研究人員已經證明,基于Transformer 的模型可能更難享受良好的數據擬合能力[55]、[38]、[245],換句話說,它們對優化器的選擇、超參數和訓練計劃非常敏感。Visformer[38]通過兩種不同的培訓設置揭示了Transformer 和CNN之間的差距。第一個是CNN的標準設置,即訓練時間更短,數據擴充只包含隨機裁剪和水平翻轉。另一個是[219]中使用的訓練設置,即訓練計劃更長,數據增強更強。[245]改變了ViT的早期視覺處理,用標準卷積干替換其嵌入干,并發現這種改變使ViT更快收斂,并使AdamW或SGD的使用不會顯著降低準確性。除了這兩項工作,[75],[77]還選擇在Transformer 頂部添加卷積桿。
[55]:An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021.[38]:Visformer: The vision-friendly transformer.arXiv preprint arXiv:2104.12533, 2021.[245]: Early convolutions help transformers see better.arXiv preprint arXiv:2106.14881, 2021.[219]: Training data-efficient image transformers & distillation through attention. InICML, 2020.[75]: Levit: a vision transformer in convnet’s clothing for faster inference.arXiv preprint arXiv:2104.01136, 2021.[77]: Cmt:Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021.
3.1.3 Self-supervised Representation Learning 自監督表征學習
基于生成的方法。生成性的圖像預訓練方法已經存在很長時間了。Chen等人[29]重新研究了這類方法,并將其與自我監督方法相結合。在此之后,提出了幾項工作[134],[8]來擴展基于生成的自監督學習在視覺轉換器中的應用。 我們簡要介紹iGPT[29]以證明其機制。這種方法包括訓練前階段和微調階段。在訓練前階段,探索了自回歸和BERT目標。為了實現像素預測,采用了序列轉換器體系結構,而不是語言標記(如NLP中使用的)。當與早期停止結合使用時,預訓練可以被認為是一種有利的初始化或調節器。在微調階段,他們向模型中添加了一個小的分類頭。這有助于優化分類目標并調整所有權重。
[29]: Generative pretraining from pixels. InInternational Conference on Machine Learning, pages 1691–1703. PMLR, 2020.[8]: Beit: Bert pre-training of image transformers.arXiv preprint arXiv:2106.08254, 2021.[134]: Mst: Masked self-supervised transformer for visual representation.arXiv preprint arXiv:2106.05656, 2021.
使用Transformer 解碼器塊的GPT-2[182]公式。特別地,層規范先于注意和多層感知器(MLP)操作,并且所有操作都嚴格在剩余路徑上執行。注意操作是唯一涉及跨序列元素混合的操作。為了在訓練AR目標時確保適當的條件作用,Chenet等人將標準的上三角掩模應用于n×n注意邏輯矩陣。當使用BERT目標時,不需要注意邏輯掩碼:Chenet等人將內容嵌入應用于輸入序列之后的位置置零。在最終的變換器層之后,他們應用一個層范數,并從輸出中學習一個投影到logits,將每個序列元素的條件分布參數化。在訓練BERT,時,他們干脆忽略了不帶面具的位置上的邏輯。 在微調階段,他們跨序列維度平均匯集最終層歸一化層的輸出,以提取每個示例的特征的ad維向量。他們從集合特征中學習到類邏輯的投影,并使用該投影來最小化交叉熵損失。實際應用表明,交叉熵損失和訓練前損失的聯合目標(LAR or LBERT)效果更好。
[182]: Language models are unsupervised multitask learners.OpenAI blog,1(8):9, 2019.
iGPT和 ViT 是將變壓器應用于視覺任務的兩個開創性作品。Igpt 與 vit-like 模型的區別主要體現在三個方面: 1) igpt 的輸入是通過像素聚類得到的一系列調色板,而 vit 將圖像均勻地分割成若干個局部塊; 2) igpt 的結構是編碼-解碼框架,而 vit 只有Transformer 編碼器; 3) igpt 利用自回歸自監督損失進行訓練,而 vpt 則通過監督圖像分類任務進行訓練。
基于對比學習的方法。目前,對比學習是計算機視覺領域最流行的自監督學習方法。對比學習已應用于視覺Transformer 的無監督預訓練[32] ,[247] ,[126]。 Chenet al. [32]調查了幾個基本組成部分對自我監督 vit 訓練的影響。作者觀察到,不穩定性是降低準確性的一個主要問題,這些結果確實是部分失敗,當訓練更加穩定時,它們可以得到改善。 他們引入了“ moco v3”框架,這是對 moco v1/2 [31][88]的一個漸進式改進。具體來說,作者在隨機數據增強下,為每張圖片選取兩種作物。它們由兩個編碼器 fq 和 fk 編碼,輸出矢量 q 和 k 直觀地表現出 q 的行為像一個“查詢”,學習的目標是檢索相應的“鍵”。這是一個最小化對比損失函數的公式,可以寫成:
這里k是fk和q在同一幅圖像上的輸出,也就是asq的正樣本。setk?包含offk從其他圖像的輸出,稱為q的負樣本。τ是l2歸一化q,k的溫度超參數。Moco v3使用自然存在于同一批中的鍵并放棄內存隊列,他們發現如果批足夠大(例如4096),內存隊列的增益會遞減。通過這種簡化,對比損耗可以以一種簡單的方式實現。編碼器fq由主干(如vit)、投影頭和額外的預測頭組成;而編碼器fk有主干和投影頭,而沒有預測頭。Fk由fq的移動平均來更新,不包括預測頭。 Moco v3表明,不穩定性是訓練自監督 vit 的主要問題,因此他們描述了一個簡單的技巧,可以提高穩定性在各種情況下的實驗。他們發現不需要訓練貼片投影層。對于標準的維特斑塊大小,斑塊投影矩陣是完全的或過完全的。在這種情況下,隨機投影應該足以保存原始補丁的信息。然而,這個技巧雖然減輕了問題,但并不能解決問題。如果學習率過大,第一層不可能是不穩定的根本原因,則模型仍可能不穩定。
[32]: An empirical study of training self- supervised vision transformers. InICCV, 2021.[126]: Efficient self-supervised vision transformers for representation learning. arXiv preprint arXiv:2106.09785, 2021.[247]: Self-supervised learning with swin transformers.arXiv preprint arXiv:2105.04553, 2021.[31]: Improved baselines with momentum contrastive learning.arXiv preprint arXiv:2003.04297, 2020.[88]: Momentum contrast for unsupervised visual representation learning. InCVPR, pages 9729–9738, 2020.
3.1.4 Discussions
視覺Transformer 的所有組成部分,包括多頭自注意、多層感知器、快捷連接、層規范化、位置編碼和網絡拓撲,在視覺識別中起著關鍵作用。如上所述,已經提出了一些工作,以提高視覺變壓器的效果和效率。從圖78中的結果可以看出,結合 cnn 和 transformer 可以獲得更好的性能,表明它們通過本地連接和全局連接互補。進一步研究骨干網絡可以改善整個視覺社區。至于視覺Transformer 的自監督表征學習,我們仍需努力在 nlp 領域追求大規模預訓練的成功。
3.2 High/Mid-level Vision 高中級視覺
最近,人們對使用變壓器來完成高/中級計算機視覺任務的興趣越來越濃厚,比如目標檢測[19] ,[291] ,[10] ,[263] ,[166] ,[144] ,車道檢測[144] ,分割[235] ,[228] ,[285]和姿態估計[102] ,[103] ,[138] ,[253]。我們在這一節回顧這些方法。
[19]: End-to-end object detection with transformers. InECCV,2020.[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR,2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[263]: Temporal-channel transformer for 3d lidar-based video object detection in autonomous driving.arXiv preprint arXiv:2011.13628, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[235]: End-to-end video instance segmentation with transformers. InCVPR,2021.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.[285]: Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. InCVPR, 2021.[102]: Hand-transformer: Non- autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia, pages 3136–3145, 2020.[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.
3.2.1 Generic Object Detection 通用對象檢測
傳統的目標檢測器主要建立在神經網絡的基礎上,而基于變壓器的目標檢測由于其優越的性能近年來引起了人們的極大興趣。 一些目標檢測方法試圖利用Transformer的自我注意機制,然后增強現代檢測器的特定模塊,如特征融合模塊[271]和預測頭[41]?;赥ransformer的目標檢測方法大致可以分為兩類:基于Transformer的集合預測方法[19]、[291]、[210]、[284]、[154]和基于變壓器的骨干方法[10]、[166],如圖9所示。與基于CNN的檢測器相比,基于Transformer的方法在準確率和運行速度上都表現出了很強的性能。表下顯示了之前在COCO 2012 VAL集合中提到的不同基于Transformer的物體探測器的檢測結果。
[271]: Feature pyramid transformer. InECCV, 2020.[41]: Relationnet++: Bridging visual representations for object detection via transformer decoder.NeurIPS, 2020.[19]: End-to-end object detection with transformers. InECCV,2020.[291]:Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[210]: Rethinking transformer-based set prediction for object detection.arXiv preprint arXiv:2011.10881,2020.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[154]: Oriented object detection with transformer.arXiv preprint arXiv:2106.03146, 2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.
COCO 2017 ValSet上不同變壓器式物體探測器的比較。運行速度(Fps)是在NVIDIA Tesla V100GPU上評估的,?根據論文中報告的數量進行了估計。?VIT主干在ImageNet-21k上進行了預訓練。?VIT主干在一個包含13億幅圖像的私有數據集上進行了預訓練。
Transformer-based Set Prediction for Detection. 基于變壓器的檢測集預測。作為基于Transformer的檢測方法的先驅,Carionet等人[19]提出的檢測Transformer(DETR)重新設計了目標檢測的框架。DETR是一種簡單且完全端到端的目標檢測器,它將目標檢測任務視為一個直觀的集合預測問題,消除了傳統手工制作的組件,如錨生成和非最大抑制(NMS)后處理。如圖10所示,DETR從CNN主干開始,從輸入圖像中提取特征。為了用位置信息補充圖像特征,在將特征輸入編碼器-解碼器轉換器之前,將固定位置編碼添加到展平特征中。解碼器使用來自編碼器的嵌入以及學習的位置編碼(對象查詢),并生成輸出嵌入。Here是一個預定義的參數,通常大于圖像中對象的數量。簡單前饋網絡(FFN)用于計算最終預測,其中包括邊界框坐標和類標簽,以指示對象的特定類別(或指示不存在對象)。與原始的transformer不同,DETR是按順序計算預測的,DETR是并行解碼對象的。DETR采用二分匹配算法來分配預測對象和地面真實對象。如等式17所示,利用匈牙利損失計算所有匹配對象對的損失函數。 DETR是一種基于transformer的目標檢測框架的新設計,使社區能夠開發完全端到端的檢測器。然而,vanilla DETR帶來了一些挑戰,具體來說,訓練計劃較長,小型物體的性能較差。為了應對這些挑戰,Zhuet al.[291]提出了可變形DETR,它已成為一種流行的方法,顯著提高了檢測性能。變形注意模塊關注參考點周圍的一小部分關鍵位置,而不是像transformer中的原始多頭注意機制那樣查看圖像特征圖上的所有空間位置。這種方法大大降低了計算復雜度,并帶來了快速收斂的好處。更重要的是,可變形注意模塊可以很容易地應用于融合多尺度特征。變形DETR比DETR具有更好的性能,訓練成本降低10倍,性能提高1.6倍更快的推理速度。通過使用迭代邊界盒細化方法和兩階段方案,可變形DETR可以進一步提高檢測性能。
也有幾種方法來處理原始DETR的緩慢收斂問題。例如,Sunet等人[210]研究了DETR模型收斂緩慢的原因,發現這主要是由于transformer解碼器中的交叉注意模塊。為了解決這個問題,提出了一種只使用編碼器的DETR,在檢測精度和訓練收斂性方面取得了相當大的改進。此外,為了提高訓練穩定性和更快的收斂速度,設計了一種新的二部匹配方案,并提出了兩種基于變換的集合預測模型,即TSP-FCOS和TSP-RCNN,以改進具有特征金字塔的純編碼器DETR。與原DETR模型相比,這些新模型實現了更好的性能。Gao等人[71]提出了空間調制的共同注意(SMCA)機制,通過將共同注意反應限制在接近初始估計邊界框位置的較高水平來加速收斂。通過將所提出的SMCA模塊集成到DETR中,可以在相當的推理成本下,以大約10倍更少的訓練周期獲得類似的mAP。
鑒于與DETR相關的高計算復雜度,Zheng等人[284]提出了一種自適應聚類變換器(ACT),以降低預訓練DETR的計算成本。ACT使用局部敏感哈希(LSH)方法自適應地對查詢特征進行聚類,并將注意力輸出廣播到所選原型表示的查詢。ACT用于取代預先訓練的DETR模型的自我注意模塊,無需任何再訓練。這種方法大大降低了計算成本,同時精度略有下降。通過使用多任務知識提?。∕TKD)方法,可以進一步減少性能下降,該方法利用原始轉換器提取ACT模塊,并進行幾次微調。Yao等人[257]指出,DETR中的隨機初始化是需要多個解碼器層和緩慢收斂的主要原因。為此,他們提出了有效的DETR,通過一個額外的區域建議網絡將密集先驗信息納入檢測管道。更好的初始化使它們能夠只使用一個解碼器層,而不是六層,從而在更緊湊的網絡中實現具有競爭力的性能。
Transformer-based Backbone for Detection. 基于transformer的檢測主干
與通過transformer將目標檢測重新設計為一組預測任務的DETR不同,Bealet al.[10]提出利用transformer作為常見檢測框架(如更快的RCNN[186])的主干。將輸入圖像分割成若干塊,送入視覺變換器,視覺變換器的輸出嵌入特征根據空間信息進行重組,然后通過檢測頭獲得最終結果。大規模的預培訓變壓器主干可能會為擬建的ViT FRCNN帶來好處。還有很多方法可以探索多功能視覺轉換器主干設計[85]、[232]、[148]、[43],并將這些主干轉移到傳統的檢測框架,如視網膜網[140]和Cascade R-CNN[16]。例如,Swin Transformer[148]在ResNet-50主干網上獲得了大約4盒AP增益,在各種檢測框架中具有類似的觸發器。
[186]: Faster R-CNN: Towards real- time object detection with region proposal networks. InNeurIPS, 2015.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021[140]: Focal loss for dense object detection. InICCV, 2017.[16]: Cascade r-cnn: Delving into high quality object detection. InCVPR, pages 6154–6162, 2018.
Pre-training for Transformer-based Object Detection. 基于transformer的目標檢測預培訓。受NLP中預訓練變換方案的啟發,人們提出了幾種方法來探索基于變換的目標檢測的不同預訓練方案[49]、[64]、[9]。Daiet等人[49]提出了目標檢測的無監督預訓練(UPDETR)。具體而言,本文提出了一種新的無監督借口任務——隨機查詢補丁檢測來預訓練DETR模型。通過這種無監督的預訓練方案,UP-DETR在相對較小的數據集(PASCAL VOC)上顯著提高了檢測精度。在有足夠培訓數據的COCO基準上,UP-DETR仍然優于DETR,這表明了無監督預培訓計劃的有效性。 Fanget al.[64]探索了如何將在ImageNet上預先訓練的純ViT結構轉移到更具挑戰性的目標檢測任務中,并提出了YOLOS檢測器。為了處理目標檢測任務,建議的YOLOS首先在ViT中刪除分類標記,并附加可學習的檢測標記。此外,利用二部匹配損失對目標進行集合預測。通過在ImageNet數據集上的這種簡單預訓練方案,所提出的YOLOS在COCO基準上顯示了具有競爭力的目標檢測性能。
[49]: UP-DETR: unsupervised pre- training for object detection with transformers. InCVPR, 2021.[64]: You only look at one sequence: Rethinking transformer in vision through object detection.arXiv preprint arXiv:2106.00666, 2021.[9]: Detreg: Unsupervised pretraining with region priors for object detection.arXiv preprint arXiv:2106.04550, 2021
3.2.2 Segmentation 分割
分割是計算機視覺領域的一個重要課題,它廣泛地包括全景分割、實例分割和語義分割等。視覺轉換器在分割領域也顯示出了巨大的潛力。
Transformer for Panoptic Segmentation.用于全景分割的TransformerDETR[19]可以自然地擴展到全景分割任務中,并通過在解碼器上附加一個遮罩頭來獲得競爭性的結果。Wanget al.[228]建議Max DeepLab使用遮罩Transformer 直接預測全景分割結果,而不涉及盒子檢測等替代子任務。與DETR類似,Max DeepLab以端到端的方式簡化全景分割任務,并直接預測一組不重疊的遮罩和相應的標簽。模型訓練使用全景質量(PQ)類型的損失進行,但與之前將變壓器堆疊在CNN主干上的方法不同,MaxDeepLab采用了雙路徑框架,有助于CNN和Transformer 的組合。
[19]: End-to-end object detection with transformers. InECCV, 2020.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.
Transformer for Instance Segmentation用于實例分割的TransformerVisTR 是一種基于變換器的視頻實例分割模型,由 wanget al [235]提出,用于從一系列輸入圖像中產生實例預測結果。提出了一種實例序列匹配策略,用基本事實分配預測。為了獲得每個實例的掩碼序列,vistr 利用實例序列分割模塊對多幀掩碼特征進行積累,并用3d cnn 對掩碼序列進行分割。Huet al [98]提出了一個實例分段轉換器(istr)來預測低維掩碼嵌入,并將它們與地面真值匹配以獲得設置損失。Istr 使用不同于現有的自頂向下和自底向上框架的循環細化策略進行檢測和分割。研究了如何實現更好、更有效的嵌入式學習來處理具有挑戰性的多目標場景下的半監督視頻對象分割問題。一些文獻,如[243] ,[52]也討論了使用 transformer 處理分割任務。
[235]: End-to-end video instance segmentation with transformers. InCVPR, 2021.[98]: Istr: End-to-end instance segmentation with transformers.arXiv preprint arXiv:2105.00637, 2021.[243]: Fully transformer networks for semantic image segmentation.arXiv preprint arXiv:2106.04108, 2021.[52]: Solq: Segmenting objects by learning queries.arXiv preprint arXiv:2106.02351, 2021.
Transformer for Medical Image Segmentation.醫療圖像分割用TransformerCaoet al. [17]提出了一種用于醫學圖像分割的 unet 式純變換器,通過將標記化的圖像補丁輸入基于變換器的 u 型編解碼器架構,該架構具有跳躍式連接,用于局部-全局語義特征學習。V alanarasuet al. [223]探索了基于變壓器的解決方案,并研究了使用基于變壓器的網絡結構執行醫療圖像分割任務的可行性,提出了一種門控軸向注意模型,該模型通過在自注意模塊中引入額外的控制機制來擴展現有的結構。Cell-detr [174] ,基于 detr 泛光分割模型,嘗試使用轉換器進行細胞實例分割。為了增強特征融合,在分割頭中增加了主干 cnn 和 cnn 解碼器之間的跳躍連接。Cell-detr 通過顯微圖像實現了細胞實例分割的最先進性能。
[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[223]: Medical transformer: Gated axial-attention for medical image segmentation. arXiv preprint arXiv:2102.10662, 2021.[174]: Attention-based transformers for instance segmentation of cells in microstructures.arXiv preprint arXiv:2011.09763, 2020.
3.2.3 Pose Estimation 姿態估計
人體姿勢和手部姿勢估計是研究界非常感興趣的基礎課題。關節式位姿估計類似于結構化預測任務,目的是從輸入的 rgb/d 圖像中預測關節坐標或網格頂點。在這里,我們討論了一些方法[102] ,[103] ,[138] ,[253] ,探索如何利用變壓器建模的人體姿態和手姿態的全局結構信息。 Transformer for Hand Pose Estimation手動姿態估計Transformer黃等[102]提出了一種基于Transformer的網絡,從點集進行三維手姿態估計。該編碼器首先利用點網(177)從輸入點云中提取點狀特征,然后采用標準的多頭自注意模塊產生嵌入。為了向解碼器公開更多的全局姿態相關信息,使用特征提取器如 pointnet [178]提取手部關節特征,然后將這些特征作為位置編碼輸入解碼器。類似地,黃等人[103]提出熱網(手對象Transformer網絡的簡稱)的三維手對象姿態估計。前面的方法是通過變換器直接從輸入點云預測手的三維姿態,而熱網法則是通過重新建立一個初始的二維手-物體姿態,然后將其輸入變換器來預測手-物體的三維姿態。因此,使用譜圖卷積網絡提取編碼器的輸入嵌入。[81] hampaliet al. 建議估計雙手的三維姿勢給定一個單一的顏色圖像。具體而言,將雙手關節的一組潛在2d 位置的外觀和空間編碼輸入到Transformer中,并利用注意機制對關節的正確構型進行分類,輸出雙手的3d 姿態。
[102]: Hand-transformer: Non-autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[177]: Pointnet: Deep learning on point sets for 3d classification and segmentation. InCVPR, pages 652–660, 2017.[178]: Pointnet++: Deep hierarchical feature learning on point sets in a metric space.NeurIPS, 30:5099–5108, 2017.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia,pages 3136–3145, 2020.[81]: Handsformer:Keypoint transformer for monocular 3d pose estimation ofhands and object in interaction.arXiv preprint arXiv:2104.14639, 2021.
Transformer for Human Pose Estimation人體姿態估計變壓器Linet等人[138]提出了一種網格Transformer(METRO),用于從單個RGB圖像預測3D人體姿勢和網格。METRO通過CNN提取圖像特征,然后通過將模板人體網格連接到圖像特征來執行位置編碼。提出了一種漸進降維的多層變壓器編碼器,以逐步降低嵌入維數,最終生成人體關節和網格頂點的三維坐標。為了鼓勵學習人類關節之間的非局部關系,METRO在訓練期間隨機屏蔽一些輸入查詢。Yanget al.[253]基于變壓器結構和低級卷積塊構建了一個可解釋的模型,名為轉置。Transformer內置的注意層可以捕捉關鍵點之間的長期空間關系,并解釋預測的關鍵點位置高度依賴于哪些相關性。Liet al.[133]提出了一種基于令牌表示的人體姿勢估計(TokenPose)新方法。每個關鍵點都被明確地嵌入為一個標記,以同時從圖像中學習約束關系和外觀線索。Mao等人[156]提出了一個人體姿勢估計框架,以基于回歸的方式解決了這項任務。他們將姿勢估計任務轉化為一個序列預測問題,并通過變換器解決,從而繞過了基于熱圖的姿勢估計的缺點。Jiange等人[110]提出了一種新的基于變壓器的網絡,該網絡可以在無監督的情況下學習姿勢和運動的分布,而不是跟蹤身體部位并嘗試暫時平滑它們。該方法克服了檢測的不精確性,并糾正了部分或整個骨架損壞。Hao等人[86]提出,在不使用任何手動注釋的情況下,根據一組測試圖像對人體姿勢估計器進行個性化設置。該方法在測試期間采用姿態估計器來利用特定于人的信息,并使用變換器模型在自監督關鍵點和監督關鍵點之間建立轉換。
[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.[133]: Tokenpose: Learning keypoint tokens for human pose estimation.arXiv preprint arXiv:2104.03516, 2021.[156]: Tfpose: Direct human pose estimation with transformers.arXiv preprint arXiv:2103.15320, 2021.[110]: Skeletor: Skeletal transformers for robust body-pose estimation. InCVPR, pages 3394–3402, 2021[86]: Test-time personalization with a transformer for human pose estimation.arXiv preprint arXiv:2107.02133, 2021.
3.2.4 Other Tasks 其他任務
還有很多不同的高級/中級視覺任務探索了如何使用vision transformer以獲得更好的性能。下面我們簡要回顧幾個任務: Pedestrian Detection行人檢測由于在遮擋和人群場景中,物體的分布非常密集,因此在將通用檢測網絡應用于行人檢測任務時,通常需要進行額外的分析和調整。Linet等人[139]發現,當直接將DETR或可變形DETR應用于行人檢測任務時,稀疏均勻查詢和解碼器中的弱注意場會導致性能下降。為了緩解這些缺點,作者提出了行人端到端檢測器(PED),它采用了一種稱為密集查詢和校正注意場(DQRF)的新解碼器來支持密集查詢,并緩解查詢中嘈雜或狹窄的注意場。他們還提出了V-Match,它通過充分利用可見注釋來實現額外的性能改進。
[139]: Detr for pedestrian detection.arXiv preprint arXiv:2012.06785, 2020.
Lane Detection車道檢測Liuet等人[144]在PolyLaneNet[212]的基礎上提出了一種稱為LSTR的方法,該方法通過使用transformer網絡學習全局上下文來提高曲線車道檢測的性能。與PolyLaneNet類似,LSTR將車道檢測視為用多項式擬合車道的任務,并使用神經網絡預測多項式的參數。為了捕捉車道和全球環境的細長結構,LSTR在體系結構中引入了transformer網絡。樣就可以處理CNN提取的低級特征。此外,LSTR使用匈牙利損耗優化網絡參數。如[144]所示,LSTR的性能優于PolyLaneNet,準確率提高2.82%,3.65倍更高的FPS,使用的參數少5倍。transformer網絡、CNN和Hungarian Loss的結合最終形成了一個精確、快速、微小的車道檢測框架??紤]到整個車道線通常具有拉長形狀和長距離,Liuet等人[143]利用變壓器編碼器結構進行更有效的上下文特征提取。這種transformer-encoder結構極大地提高了提案點的檢測能力,它依賴于上下文特征和全局信息,尤其是在主干網絡是小型模型的情況下。
[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[212]: Polylanenet: Lane estimation via deep polynomial regression.arXiv preprint arXiv:2004.10924, 2020.[143]: Condlanenet: a top-to-down lane detection framework based on conditional convolution.arXiv preprint arXiv:2105.05003, 2021.
Scene Graph 場景圖場景圖是場景的結構化表示,可以清晰地表達場景中的對象、屬性和對象之間的關系[21]。為了生成場景圖,現有的大多數方法首先提取基于圖像的對象表示,然后在它們之間進行消息傳播。圖R-CNN[252]利用自我注意來整合圖中相鄰節點的上下文信息。最近,Sharifzadeh等人[196]在提取的對象嵌入上使用了變壓器。Sharifzadeh等人[195]提出了一種新的管道,稱為ExeMa,并使用預先訓練的文本到文本轉換轉換器(T5)[183]從文本輸入創建結構化圖形,并利用它們改進關系推理模塊。T5模型支持利用文本中的知識。
[21]: Scene Graphs: A Survey of Generations and Applications.arXiv:2104.01111 [cs], Mar. 2021.[252]: Graph r-cnn for scene graph generation. InECCV, pages 670–685, 2018.[196]: Classification by attention: Scene graph classification with prior knowledge. InProceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 5025–5033, May 2021.[195]: Improving Visual Reasoning by Exploiting The Knowledge in Texts. arXiv preprint arXiv:2102.04760, 2021.[183]: Exploring the limits of transfer learning with a unified text-to-text transformer.Journal of Machine Learning Research, 21(140):1–67, 2020.
Tracking 追蹤一些研究人員還探索在基于模板的鑒別跟蹤器中使用變壓器編解碼器結構,如TMT[229]、TrTr[282]和TransT[33]。所有這些工作都使用類似暹羅的跟蹤流水線來進行視頻對象跟蹤,并利用編解碼器網絡來取代顯式的互相關操作,以實現全局的和豐富的上下文相關性。具體地說,將變壓器編碼器和解碼器分別分配給模板分支和搜索分支。此外,Sunet等人提出了Transtrack[207],這是一種在線聯合檢測和跟蹤管道。它利用查詢鍵機制跟蹤預先存在的對象,并在流水線中引入一組學習對象查詢來檢測新到來的對象。提出的Transtrack在MOT17和MOT20基準上分別達到了74.5%和64.5%的MOTA。
[229]:Transformer meets tracker: Exploiting temporal context for robust visual tracking. InCVPR, pages 1571–1580, 2021.[282]: TrTr: Visual Tracking with Transformer.arXiv:2105.03817 [cs], May 2021. arXiv: 2105.03817.[33]: Transformer tracking. InCVPR, pages 8126–8135, June 2021.[207]: TransTrack: Multiple Object Tracking with Transformer. arXiv:2012.15460 [cs], May 2021. arXiv: 2012.15460.
Re-Identification 對象重新識別Heet et al.[90]提出TransReID來研究純transformer在對象重新識別(ReID)領域的應用。在將變壓器網絡引入Object Reid時,TransReID使用重疊切片來保留面片周圍的局部相鄰結構,并引入2D雙線性插值來幫助處理任何給定的輸入分辨率。通過變壓器模塊和損耗函數,提出了一個強基線,以獲得與基于CNN的框架相當的性能。此外,設計了拼圖拼接模塊(JPM)以便于物體的擾動不變和魯棒特征表示,并引入邊信息嵌入(SIE)來編碼邊信息。最終的框架TransReID在個人和車輛Reid基準上都實現了最先進的性能。Liuet al.[145]和Zhang et al.[276]都提供了將變壓器網絡引入基于視頻的個人Re-ID的解決方案。類似地,這兩種方法都利用分離的變換網絡來提取時空特征,然后利用交叉視圖變換來聚合多視圖特征。
[90]: TransReID: Transformer-based object re-identification. InICCV, 2021.[145]: A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification.arXiv:2104.01745 [cs], Apr. 2021.[276]: Spatiotemporal Transformer for Video-based Person Re-identification. arXiv:2103.16469 [cs], Mar. 2021. arXiv: 2103.16469.
Point Cloud Learning 點云學習最近,也出現了許多其他研究變壓器架構用于點云學習的作品[57]、[78]、[280]。例如,Guolace等人[78]提出了一個新的框架,用一個更合適的偏移注意模塊取代了原有的自我注意模塊,該模塊包括隱式拉普拉斯算子和歸一化細化。此外,Zhao等人[280]設計了一種稱為點變壓器的新型變壓器結構。所提出的自我注意層對點集的排列是不變的,因此適合于點集處理任務。Point Transformer在3D點云語義分割任務中表現出很強的性能。
[57]: Point transformer.arXiv preprint arXiv:2011.00931, 2020.[78]: Point cloud transformer.Computational Visual Media, 7(2):187–199, 2021.[280]: Point transformer. In ICCV, 2021.
3.2.5 Discussions
如前幾節所述,transformers在多個高級任務上表現出了強大的性能,包括檢測、分割和姿勢估計。在將transformer用于高級任務之前,需要解決的關鍵問題涉及輸入嵌入、位置編碼和預測損失。一些方法建議從不同角度改進自我注意模塊,例如,變形注意[291]、自適應聚類[284]和點變換[280]。盡管如此,在高級視覺任務中使用變壓器的探索仍處于初步階段,因此進一步的研究可能會證明是有益的。例如,在transformer之前是否有必要使用CNN和PointNet等特征提取模塊以獲得更好的性能?如何像BERT和GPT-3在NLP領域所做的那樣,使用大規模的預訓練數據集充分利用vision transformer?有沒有可能預先訓練一個變壓器模型,并針對不同的下游任務進行微調,只需進行幾次微調?如何通過結合特定任務的先驗知識來設計更強大的體系結構?之前的幾項工作已經對上述主題進行了初步討論,我們希望進行更多的進一步研究,探索更強大的變壓器,以實現高水平的視覺效果。
[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[280]: Point transformer. In ICCV, 2021.
標簽:
相關推薦:
精彩放送:
- []全球熱推薦:NSA是假5G?NSA組網模式有哪些?
- []當前動態:iPhone怎么把信號標志改成圓點?使用教程來了
- []【環球熱聞】如何給自己的網站接入谷歌聯盟?方法步驟
- []環球觀熱點:如何通過Word制作電子賀卡?制作教程
- []天天滾動:常用計算機的外設有哪些?電腦外設產品什么品牌好?
- []KMP算法是什么?KMP算法詳解
- []投籃機投籃有技巧嗎?高手練習投籃的幾個技巧
- []斗破蒼穹蕭炎救云韻 蕭炎h熏兒很多人還不知道
- []互補品的需求曲線圖是什么?微觀經濟學中的供給與需求定律
- []【前沿重器】句子相似度和匹配心法利器
- []焦點快報!如何下載天地圖離線地圖瓦片數據?離線地圖的下載方式
- []全球要聞:神州行是什么?神州行是移動還是聯通?
- []【聚看點】百度指數是什么意思?其中的數值又代表什么?
- []高效Transformer、計算機視覺的總結與展望
- []環球微頭條丨用眼部按摩儀好嗎?有哪些好處?
- []WIN+R:程序運行窗口或者打開某個文件
- []國外拍攝婚禮應注意什么?海外攝影師須知常識
- []即時焦點:正則解析網絡運維數據之OneTake 解析網絡運維數據
- []環球觀焦點:福州:2022年保租住已開工5萬套 棚戶區改造新開工1.13萬套
- []當前觀察:密云區:加快建設“五興鄉村”
- []全球今日報丨黑龍江:實現電網統一監控平臺現場接入
- []智能電網技術:電力節能的“法寶”
- []廣東大埔實施智能電表升級改造
- []看熱訊:農村電網改造 出現了智能電表 沒有偷電的了 卻出現賣電的了
- []【世界播資訊】我全責保險公司都賠嗎
- []天天動態:行業透視 | 房企商票逾期快速增加勢頭得到遏制
- []買了車損險被水淹了保險賠付嗎
- []公積金不買房怎么貸款
- []全球今亮點!下冰雹保險公司理賠嗎
- []商業保險出院一般多久報銷
- []天天播報:武漢高科產業園區Pre-REITs完成備案 為華中地區首單
- []全球速訊:一周跌超10%!這家公司2天接待200多家機構,聚焦這些問題
- []【世界報資訊】央行營管部:做好金融支持房地產市場平穩健康發展相關工作
- []世界今日訊!保利置業供應鏈ABS完成發行 發行總規模4.48億元
- []步步高正式易主 湘潭市國資委將成為實際控制人
- []步步高控制權變更落地 湘潭國資將入主
- []天天熱點!成都軌道新增發行3.64億元供應鏈ABS 已累計發行7.32億元
- []云南旅游:華僑城、賈博特申請解除2.13億股限售
- []全球熱消息:北京政府工作報告:支持住房改善等消費 老舊小區綜合整治新開工300個
- []環球關注:上實發展:擬核銷應收類款項不良資產6519.75萬元
- []環球即時:奮達科技:公司控股股東近期大宗交易已完成并進行了公告,請查閱巨潮資訊網
- []獲山東國資紓困 山東健康入主奧園珠海最大舊改
- []全球熱議:長沙產投集團與華潤置地簽署合作 涉及城市更新、產業片區開發等
- []眾泰汽車:公司目前生產車型中沒有T450
- []世界速遞!檢察院承認自首可以追究刑事責任嗎?
- []全球最資訊丨中華醫學會內分泌學分會主任委員趙家軍:先省飯錢,后省藥錢,血糖健康多活好多年
- []廣立微:公司嚴格遵守法律法規對信息披露的要求并按照規則及時披露公司重大事項,請以公司公告為準
- []【聚看點】海通證券:本輪上漲價值略占優 成長有望接力
- []【天天播資訊】香港航空宣布全員加薪;微信在2023還能給旅游業提供哪些土壤? | 一周速覽
- []【當前獨家】2023年雅閣酒店集團首批開業酒店亮相
- []全球快報:證券經紀業務規范八要點:不得使用零傭宣傳 穩步推進非法跨境業務整改
- []世界微速訊:優質產品仍稀缺 績優基金強勢吸金
- []世界熱訊:證監會、央行聯合發布新規 規范公募基金信息披露電子化
- []天天快訊:基金周報:煤炭板塊逆勢走強 相關基金收益領先
- []全球球精選!國網寧夏電力上線應用電費智能核算功能
- []當前熱訊:江蘇電科院實現配網線損 分級分類數字化診斷
- []恒華科技BIM技術助力智慧樓宇建設
- []環球消息!養老保險明細單在哪兒打印
- []補考費有保險怎么報銷
- []全球看點:如何申請商業險墊付
- []【天天新要聞】健康保險的種類包括哪些
- []今日觀點!中華保險是國企單位嗎
- []QQ瀏覽器是如何提升搜索相關性的?
- []全球快訊:1月14日14時,2023春節檔新片票房預售突破2000萬
- []焦點資訊:年終獎稅率表2023
- []當前信息:2022年郵政貸款利率
- []【世界快播報】辦信用卡的條件
- []天天最資訊丨硅寶科技:公司近期生產經營情況一切正常,各項工作順利推進
- []天地數碼:公司將根據《深圳證券交易所創業板股票上市規則》認真履行披露義務
- []當前視訊!銀河電子:公司充電樁業務也基本如此,鑒于其體量較小,對公司整體影響較小
- []天天熱資訊!美聯新材:1、公司春節放假具體安排為:1月21日(星期六)至27日(星期五) 放假調休,共7天
- []丘棟榮20億會買什么?線索來了!陸彬、施成、李孝華也有動作!
- []天天速訊:興業證券:外資在加倉哪些方向?交易盤配置盤有何差異?
- []焦點精選!雅高進軍奢華游輪領域;東航、南航擬從紐交所退市 | 大公司簡報
- []天天精選!烏蘭察布市工傷死亡賠償包括哪些
- []全球快看:維宏股份:放開之后也就12月份最后三周,因為周期太短,就沒做對比分析
- []環球看熱訊:首位明星基金經理四季報出爐!大幅加倉寧德時代和中國平安 看好新能源三類機會
- []博菲電氣:截止2022年11月30日公司共有股東10319戶
- []勁韌2022!傳祺全年銷量超36.2萬輛,同比增長11.8%
- []天天新資訊:CFTC商品持倉解讀:投機者削減美國原油凈多頭頭寸
- []全球觀察:凈賺21.1億-25.1億!愛旭股份去年業績大幅扭虧為盈!
- []每日速遞:光伏巨頭日賺5000萬,擋不住股價新低
- []每日短訊:捷報!京山輕機再次“敲開”印度市場
- []原來微電網很好懂,一文詳解微電網
- []環球看熱訊:烽火通信攜手山東電力共創SPN新成果
- []當前動態:珍酒李渡集團港交所遞表 2022年前三季度總收入42.49億元
- []資訊推薦:工地團體意外險怎么買,以下四種方法可購買
- []什么是基本養老賬戶和臨時養老賬戶
- []當前熱文:預制菜開啟春節之戰,破局立新正在進行時
- []天天動態:雙邊公積金什么意思,公積金匯繳的總額
- []鑫享人生15年后怎樣領
- []奧園健康發布內部控制評估結果:采取的整改措施充分有效
- []公積金賬戶封存是什么意思,怎么提取
- []全球焦點!民間借貸中明確的事項有哪些?
- []【全球新視野】東箭科技:1月12日公司高管羅軍減持公司股份合計15.14萬股
- []全球資訊:潤和軟件:1月12日公司高管周紅衛減持公司股份合計52.3萬股
- []世界觀熱點:龍佰集團:1月12日公司高管申慶飛增持公司股份合計2.31萬股
- []世聯行董事會:選舉胡嘉為董事長 陳勁松為聯席董事長
- []連平:房貸利率有望保持在歷史低位
- []愛樂達:1月12日公司高管汪琦減持公司股份合計11.47萬股
- B站注冊資本增幅400%至5億 目前由陳睿全資持股
- 光源資本出任獨家財務顧問 沐曦集成電路10億元A輪融資宣告完成
- 巨輪智能2021年上半年營收11.24億元 期內研發費用投入增長19.05%
- 紅棗期貨尾盤拉升大漲近6% 目前紅棗市場總庫存約30萬噸
- 嘉銀金科發布2021年Q2財報 期內凈利潤達1.27億元同比增長208%
- 成都銀行2021上半年凈利33.89億元 期內實現營收同比增長17.27億元
- 汽車之家發布2021年第二季度業績 期內新能源汽車品牌收入增長238%
- 中信銀行上半年實現凈利潤290.31億元 期末不良貸款余額706.82億元
- 光伏概念掀起漲停潮交易價格創新高 全天成交額達1.29億元
- 上半年生物藥大增45% 關鍵財務指標好轉營收賬款持續下降
- 宜華健康:實控人劉紹喜關聯方無償捐贈頌陽實業已完成工商變更登記手續
- 公告精選:阿里巴巴有意向取得2.48億股美凱龍股票;南方航空等擬將美國存托股份從紐交所退市
- 英洛華:公司未與貴州習酒有業務合作,無相關計劃
- 焦點速讀:2022年12月新發個人房貸平均利率4.26%,為有統計以來最低
- 我愛我家:持股5%以上股東東銀玉衡計劃減持不超過2%股份
- 天天熱點!融信中國延期寄發通函 涉融信服務和秀景園林續簽服務框架協議
- 資訊推薦:建發合誠:1月11日至1月12日公司高管黃和賓、劉志勛、高瑋琳增持公司股份合計16.74萬股
- 龍湖2022年累計交付超11萬套 含50個城市超140個項目
- 天天實時:奧園美谷為子公司融資提供補充擔保 將番禺奧園廣場房產提供抵押
- 前沿資訊!云南鍺業:目前國內尚無權威機構發布相關排名。
- 朗詩綠色管理:2022年累計銷售額222.87億元
- 棲霞建設為蘇州卓辰置業1.5億元借款提供連帶責任擔保
- 世界要聞:中原城市領先指數CCL連升三周最新報158.23點 確認樓價見底回穩
- 消息稱京東考慮將物流地產等2家子公司上市 各自籌集約10億美元
- 全球聚焦:遠興能源:公司將根據項目試車情況,穩步推進產能投放
- 昆船智能:公司尚未布局AIGC
- 全球觀速訊丨富力地產2022年全年銷售收入384.3億元 12月攬金20.4億元
- 沃隆食品IPO:每日堅果,還賣得動嗎?
- 當前快播:金融部門:完善針對30家試點房企的“三線四檔”規則
- 建發股份擬63億收購美凱龍29.95%股份 或成為其控股股東
- 新資訊:寶馨科技:若股東所持公司股份涉及權益變動,公司會根據相關規定督促股東及時履行信息披露義務
- 協鑫集成:公司目前經營情況正常,關于公司EPC項目業績情況請關注公司定期報告相關內容
- 【天天時快訊】金融部門:調整優化并購重組、再融資等5項房企股權融資措施
- 拓維信息:截至1月10日,公司股東人數為98731人
- 新賽年,添新績!第四屆“非凡獎”獲獎名單揭曉,臥兔網絡榮獲最佳家電行業海外網紅營銷獎!
- 天天速訊:寒潮來襲 我國多地采取多種措施應對 保障平安返鄉路
- 財面兒丨朗詩綠色管理2022年簽約銷售額約222億元
- *ST日海:根據有關規則,公司需在2023年1月31日前披露2022年度業績預告
- 世界熱推薦:央行鄒瀾:12月新發放個人住房貸款利率平均4.26% 為2008年以來最低
- 聯防聯控機制統一調度,阿里巴巴牽頭,朱氏藥業集團10萬臺血氧儀已全部交付
- 播報:億達中國2022全年銷售額19.5億元 均價基本持平
- 家居丨建發股份:擬不超過63億元現金收購美凱龍29.95%股份
- 家居丨美聯新材股東張朝益累計減持524.31萬股
- 當前視訊!寧波遠洋:二級市場的股票價格波動受多重因素影響,公司將積極做好生產經營,保持良好的基本面
- 環球新資訊:朝陽科技:設立全資子公司星聯科技是公司在上游配件領域作出的業務延伸,目前尚處于前期推進階段
- 跨境通:公司股東情況公司會根據中國登記結算公司深圳分公司提供的數據定期在互動平臺進行
- 恒地古洞北項目改方案
- 1月13日同興環保漲停分析:碳中和,環保,鈉離子電池概念熱股
- 1月13日合力泰漲停分析:指紋識別,智能手表,無線充電概念熱股
- 《2023春節置業意向報告》發布 超八成意向購房者計劃春節看房購房
- 環球熱消息:1月13日盈方微漲停分析:VR&AR,小米概念股,北斗導航概念熱股
- 東方集團:公司正在加快推進房地產業務資產處置和資金回籠,房地產業務相關子公司無上市計劃
- 華夏幸福:美元債重組債權人會議延期至1月16日舉行
- 天天微頭條丨1月13日江蘇華辰漲停分析:新能源汽車,充電樁,光伏概念熱股
- 每日焦點!天地源收購西安高新紅廟村改造項目55%股權 已完成工商變更登記
- 中國技術閃耀CES,海信電視斬獲15項權威大獎
- 傳祺M8宗師硬剛兩臺重型大貨車,中國最安全MPV在這里
- 【全球聚看點】安妮股份:公司沒有生產相關產品
- 短訊!凱樂科技股價漲停,公司緊急提示風險,投資者仍可報名索賠
- 今日熱訊:丁祖昱:樓市典型32城“保交付”成績如何?
- 【全球報資訊】浙江順泰實業2.55億元競得紹興磕下村三宗商住地
- 當前速讀:板塊異動 | 地產利好政策頻出帶動家居板塊估值修復 家居用品概念股盤中走強
- 全球觀天下!【BT金融分析師】Novavax在2022年股價暴跌93%,分析師稱其苦日子還未到頭
- 天天快訊:1.23億!海南文旅大盤再現違建被罰,官方回應“已沒收,辦產權證要等通知”
- 環球要聞:微觀這一年?房企|布局大灣區多城,2022年卻鮮少拿地,靠開發頂豪走紅的鵬瑞集團能否持續發力?
- 【全球聚看點】堅朗五金:截至2023年1月10日,公司股東數量為:13,698戶
- 當前熱門:朗迪集團:公司子公司寧波朗迪環境科技有限公司主營業務為空氣過濾網,主要應用于家用空調和商用空調等
- 世界今亮點!多家航司重啟招聘:空姐空少最搶手,有公司開出33萬年薪
- 外國游客銳減99%,京都面臨破產危機,日本旅游業這三年有多難熬?
- 注意!基金擴位簡稱規則全面落地 這些基金改名 影響有多大?
- 泓博醫藥:公司是一家合同研發組織,CRO商業模式下,知識產權通常歸甲方所有
- 銀邦股份:截至2023年1月10日,公司股東戶數為39,265
- “三朵小花”啟程!代表中國“乘風破浪”
- 爭光股份:公司中標情況您可查詢參見公開的招標平臺數據
- 金融部門將設立1000億元住房租賃貸款支持計劃
- 中蘭環保:目前公司暫無收購光伏企業和切入電池回收項目的計劃
- 58同城、安居客《2023春節置業意向報告》:近半意向購房者計劃1-2年內購房
- 掀起新一輪救市大潮:樓市需求端持續寬松,“因城施策”進一步打開
- 一張圖:黃金原油外匯股指"樞紐點+多空占比"一覽(2023/01/13周五)
- 1月13日匯市觀潮:歐元、英鎊和日元技術分析
- 熱資訊!近七成意向購房者選擇就地買房,返鄉置業需求下降
- 當前通訊!長安期貨原油早評:油價將震蕩,建議區間短差
- 焦點速訊:長安期貨貴金屬早評:美國12月通脹指標顯著回落,黃金期價或震蕩偏強
- 焦點資訊:專家稱金價升至2000美元將開始起飛,下一輪牛市將達5000美元!
- 天天熱推薦:50個重點城市房租全部下跌
- NOTAM是什么?為何造成美國全境民航停飛?
- HALO光環夢想家,自然力量喚醒原生靈感
- 會議記錄神器,科大訊飛智能錄音筆成為商務人士首要選擇
- 雞西周邊有哪些旅游景點?雞西旅游攻略
- 實時:供貨寶馬,三星SDI將在匈牙利建第三家電池工廠
- 誰能百里挑一是什么節目?誰能百里挑一節目簡介
- 全球滾動:五月份比較適合去哪里旅游?五月旅游有哪些推薦?
- 全球觀速訊丨離婚前規則張小凡結局怎么樣?離婚前規則劇情介紹
- 【天天時快訊】2023年上市銷售?這家PCB上市企業擬跨界鈉電池
- vankor是什么牌子的表?vankor品牌資料介紹
- 【全球快播報】關于意志堅強的名言有哪些?分享一些意志堅強的名言
- 當前短訊!什么是SOA?SOA有哪些用處?
- 全球微速訊:無言無語是什么意思?無言無語是怎么流行起來的?
- 當前熱文:2022年民航:回到12年前
- 天天熱資訊!金立e6老是自動重啟是什么原因?金立e6老是自動重啟怎么辦?
- 穿越到倚天射雕天龍神雕的小說有哪些?分享幾部穿越小說
- 支持四川沼氣開發項目,安盛助力中國雙碳目標
- 實時焦點:鈉離子新型電池行業首發!
- 世界資訊:帝科股份:定增1.86億元投建1000噸TOPCon電池用導電銀漿
- 每日焦點!開年就見百億“頂梁柱”基金經理離任,下一站猜想爆棚了?
- 重點聚焦!物業丨雅生活服務:提名黎家河為獨立非執行董事候選人
- 國中水務:收購款8.5億為公司自有資金
- 上海嘉定區掛牌2宗小體量商業用地 總起價僅3996萬元
- 環球訊息:平安不動產20億元公司債將于1月17日付息 利率3.6%
- 熱議:財面兒丨華潤置地:2022年實現合同銷售金額3013.3億元