Relative Position 介紹 + 論文閱讀

說明

本文寫於 Swin Transformer 論文閱讀之後，當時對 Relatvie position 的理解不夠清楚，本文將會做解釋，並附上原論文的筆記。

以下將會先用長度為 3 的序列作為示範。

Absolute Position Encodings

Absolute Position Encodings 的做法是把用某種方式生成或可學習的向量加在輸入，第一個位置用 $w_1$，第二個位置用 $w_2$，第三個位置用 $w_3$。

Relative Position Encodings

Relative Position Encodings 顧名思義，就是改用相對位置來做這些向量。

上圖中，Position Encoding 的部分從 3 個向量變成 3*3 個向量，因為現在會以每個 token 為基準，生出 3 個相對位置向量。

我們以 $w_0$，代表處於原點，$w_x$ 代表往右 $x$ 格，$w_{-x}$ 代表往左 $x$ 格，其中 $x$ 是正整數。

第一個 row 有 $w_0$、$w_1$、$w_2$，意思是以第 0 個向量 (I) 為基準，他的位置是 $w_0$，對第 0 個向量來說，第 1 個向量 (like) 是 $w_1$，第 2 個向量 (cat) 是 $w_2$。

輪流以 $n$ 個 token 為基準，就會生出 n*n 個相對位置向量，而不是原先的 n 個絕對位置向量。

其中 $w_i$ 和 $w_j$ 如果 $i=j$，他們會共用同樣的 weight，上圖是以相同顏色表示。

如果序列長度是 $n$，就會有 $2n-1$ 個向量要學。

n*n 這個數量使其適合加入到 self-attention，原始論文的加入方式可以參考下方論文筆記，這邊晚點會介紹後續衍生的簡化版。

Swin Transformer 如何導入 Relative Position Encodings

Swin Transformer 是借鑒許多 CNN 架構，為了 CV 而經過修改的 vision transformer。

其中一個重點是，他會在一小區塊的特徵圖上做 self-attention，而且是用 Relative Position Encodings。

和剛剛的差別在於，現在要在二維空間做 Relative Position Encodings。

假設有一張 2*2 的 feature map，我們先設定好 feature map 各個 token 的絕對位置座標。

然後我們輪流把 feature map 的每一個 token 作為基準點，把 feature map 的每個 token 的座標減去基準點的座標，就可以得到相對位置座標。

如果我們把四個相對位置座標各別攤平 (按照左上 -> 右上 -> 左下 -> 右下的順序)，並且從上到下排好，他會看起來如下圖。

此時我們幾乎完成了相對位置的表，和剛剛序列一樣生出了 n*n 個相對位置。

我們接下來要做的事情是把這個表給編號，把 (0, 0) 都編成某個數字，把 (1, 0) 都編成某個數字。

在此之前，先考慮總共會有幾種可能的相對座標，對於邊長 $M$ 的 feature map (這裡 M=2)，因為兩軸可能的數字皆有 (2M-1) 種，共會有 (2M-1)*(2M-1) 種可能性，這裡等於 9。

所以我們等等會把所有座標編為 0~8。

想從座標生出編號 0~8 可以考慮把座標兩軸的數字相加，但由於有負數的存在，要先把兩軸的數字都變成非負整數，所以先把兩軸的座標都各別加 M-1。

此時如果相加，會使 (2, 1) 和 (1, 2) 都對應到數字 3，所以我們先把 row 座標乘上 2M-1 再相加，此時就可以獲得一個 n*n 的 index table ，對應一組相對位置向量。

Swin Transformer 是用簡化版的作法來引入相對位置，公式如下

$Attention(Q,K,V)=SoftMax(QK^T/\sqrt{d}+B)V$
- $B$ 是 relative position bias，$B \in R^{M^2 * M^2}$
- $a_{ij}$ 是純量，不是向量，和原始論文不同

論文出處

paper: Self-Attention with Relative Position Representations

Abstract

依賴於 attention 機制的 Transformer 在機器翻譯方面取得 SOTA，但在結構中沒有相對或絕對的位置資訊，他需要在輸入中添加絕對位置的資訊。

因此本文提出一種替代方案，拓展 self-attention ，考慮相對位置的表示，並在一些任務中獲得更好的結果。

值得一題的事，作者觀察到結合相對和絕對位置不會進一步提高翻譯品質。

該機制可以拓展到任意 graph-labeled 的輸入

Introduction

Non-recurrent models 不一定按順序考慮輸入元素，因此可能需要明確的 position encoding 才才能用序列順序。

一種常見的方法是使用與輸入元素結合的 position encoding，以向模型傳達位置資訊。

可以是 deterministic function，或是 learned representations。

CNN 可以捕捉 kernel 的相對位置資訊，但被證明仍受益於 position encoding。

對於既不使用卷積也不使用遞歸的 Transformer，結合位置信息的 representation 是一個特別重要的考慮因素，因為該模型在其他方面對序列排序完全不變。

本文提出一種將相對位置合併到 Transformer 的 self-attention 的做法，即使完全換掉絕對位置編碼，也使兩個機器翻譯任務的品質有顯著提高。

Background

原始 self-attention
$z_i=\displaystyle\sum_{j=1}^n\alpha_{ij}(x_jW^V)$
$\alpha_{ij}=\frac{\text{exp } e_{ij}}{\sum_{k=1}^n\text{exp } e_{ik}}$
$e_{ij}=\frac{(x_iW^Q)(x_jW^K)^T}{\sqrt{d_z}}$

Proposed Architecture

Relation-aware Self-Attention

有兩個要引入 relative position 的地方，而且都是向量

$z_i = \displaystyle\sum_{j=1}^n \alpha_{ij}(x_jW^V+a_{ij}^V)$
$e_{ij}=\frac{x_iW^Q(x_jW^K+a_{ij}^K)^T}{\sqrt{d_z}}$

Relative Position Representations

可以引入 clip，把線性序列中，高於長度 k 的修剪成最大值

$a_{ij}^K=w_{clip(j-i,k)}^K$
$a_{ij}^V=w_{clip(j-i,k)}^V$
$clip(x,k)=max(-k,min(k,x))$

Experiments

Model Variations

clipping 的實驗
V 和 K 的 ablation study