A Structural Probe for Finding Syntax in Word Representations(Hewitt.J(2019))

|

1. Introduction

본 논문은 통사적 정보를 찾기 위한 structure prob를 다루며 word representation 내에 syntactic tree가 반영되어 있는지 확인하는 방법에 대해 논의한다. 이를 위해 두 가지 문제제기를 할 수 있다:

(1) ELMo와 BERT가 문맥에 따라 영어의 dependency tree를 encoding할 수 있나.
(2) vector representation이 tree를 encoding한다는 것을 어떻게 알 수 있나.

2. Are vector spaces and trees reconcilable?

이 논문은 인간이 구사하는 문장이 chunk로 구성되어 있고, 그 chunk들이 결합되는 순서로 tree structure를 만들어볼 수 있다는 것을 기본 전제로 하고 있다. 신경망을 통해 단어들은 아래와 같이 vector로 표현될 수 있다:

2021-03-21 (2)
2021-03-21
2021-03-21 (1)

3. Methods

  • Goal:
    본 논문에서는 vector space에 존재하는 vector(ELMo나 BERT로 학습된)로 tree structure를 찾아내고, ELMo와 BERT가 parse tree를 얼마나 인간과 유사하게 encode하는지 확인하고자 한다. 즉, neural network가 sentence의 parse tree를 잘 embedding할 수 있는지 확인하는 것을 목표로 한다.

  • Definition:
    그래프를 embedding한다는 것은 vector space의 기하학(norm)이 그래프의 기하학에 유사하도록 각 node의 vector representation을 학습하는 것이다(Hamilton et al., 2017)
    직관적으로, parse tree distance와 depth가 syntax와 무슨 상관이 이는 것일까? 단어와 단어사이의 distance metric은 node u,v와 거리 $d_T(u,v)=1$가 연결괸다는 것을 확인함으로써 tree를 포함할 수 있다. node는 norm의 크기에 따라 parents node냐 child node냐가 구분된다.
    distance metric은 hierarchical behavior를 설명한다. Linzen et al., 2016에서는 주어와 동사 사이에 나타나는 attractor가 존재한다고 언급되었는데, 동사는 tree 내에서 어떤 attractor보다 주어와 가깝다. 이러한 관계를 통해 hierarchical한 구조가 embedding된다는 것을 알 수 있다.

2021-03-28

nn이 parse tree를 embedding하면 매우 많은 종류의 정보를 encoding해야 하기 때문에 아마 representation space 전체를 사용하지 않을 것이다. 본 연구의 probe는 word representation space의 선형 변형을 학습하는데 변형된 공간은 모든 문장에 대한 parse tree를 embedding한다. 이는 syntax를 encoding하데에 사용된 representation space의 일부분을 찾는 것과 같다. 즉, 이는 tree metric에 가장 잘 맞는 original space에서의 distance를 찾는 것이다.

3.1 The structural probe

본 논문에서 제안하는 structural probe는 pares tree가 어떻게 신경망의 hidden state에서 embedding될 수 있는지에 대해 간단한 가설을 통해 진행된다. parse tree는 아래와 같이 생겼다:

2021-03-21 (3)

3.1.1 Trees as distances and norms

본 연구에서는 불연속 구조인 parse tree가 연속적인 vector의 sequence로 encoding되는지를 결정하는 것이 핵심이다. 여기에서 제시되는 가설은 우선 vector distance가 pares tree로 encoding되어 word representation의 linear transformation이 존재한다는 것이다. parse tree에는 두 단어에 대한 path metric d($w_i$, $w_j$)가 있다. 따라서 tree를 embedding하는 것은 tree에 의해 정의된 distance metric을 embedding하는 것과 같다. 따라서 nn을 통해 생성된 vector의 distance가 parse tree의 distance와 같다면 이는 nn이 문장 내 잠재된 tree를 embedding한 것으로 볼 수 있다.

2021-03-21 (4)

위 그림을 보면 distance-1에 chef와 was가 걸리는 것을 볼 수 있다. 따라서 여기에서 chef와 was가 각각 $w_i$, $w_j$가 되고 두 단어 사이의 관계를 edge를 통해 embedding하는 것이다. chef가 was에 대한 직접적인 피지배소이기 때문에 chef와 was는 distance-1이지만 store과 was는 was에서 chef를 거쳐 ran과 to를 지나 이어지기 때문에 distance-4가된다. 즉, distance-4가 되기 위해서는 arc를 타고 들어가야 distance를 확인할 수 있다.

The syntax distance hypothesis
syntax distance 가설은 선형 변형(lenear transformation) $B$에 대한 것으로, 이는 L2 distance를 통해vector간의 거리가 parse tree를 표상한다는 것이다(${B^T}B$). 여기에서 L2 distance를 사용한 이유는 그냥 이게 제일 잘 돼서. 아래는 위 예시가 vector space에 표상된 그림으로, 3차원 word representaion을 2차원 공간에 encoding한 것이다.($B \in \mathbb{R}^{2\times3}$)
2021-03-27 (1)
2차원 공간에 encoding된 것을 선형 변형시키면 tree가 보인다:
2021-03-27 (2)

3.1.2 Finding a parse tree-encoding distance metric

잠재적 tree-encoding distance는 선형변형($B \in \mathbb{R}^{k\times n}$)을 통해 parameter화 된다.

\begin{matrix} {\lVert h_i-h_j \rVert}_B^2=(B(h_i-h_j))^T(B(h_i-h_j)) \end{matrix}

$Bh$는 word representation의 선형변형된 것으로, parse tree node representation과 같다. 이는 L2 distance를 positive semi-definite matrix(vector x값에 따라 0이상의 양수값으로 만드는 행렬) ($A={B^T}B$) 로 parameter화된 vector space에서 찾는 것과 같다.

\begin{matrix} \lVert h_{i} - h_{j} \rVert_{A}^{2} = (h_{i} - h_{j})^{T} A(h_i-h_j) \end{matrix}

인간이 만든 parse tree의 distance와 nn이 예측한 parse tree distance의 차이를 최소화한다.

\begin{matrix} \underset{B}{\min}\sum_{\ell}\frac{1}{\left\vert s_{\ell} \right\vert}^2\sum_{i,j}(d(w_i,w_j)-{\lVert B(h_i - h_j)\rVert}^2) \end{matrix}

코퍼스 내 문장 $s_\ell$과 $\frac{1}{\left\vert s_{\ell} \right\vert}^2$ index$\ell$은 각 문장의 단어 쌍 수를 normalize한다. 중요한 것은 tree distance와 squared distance $\lVert {h_i}-{h_j} \rVert_B^2$ 의 차이를 최소화해야 한다는 것이다. (실제 vector 거리 ${\lVert h_i - h_j \rVert}_{B}$가 항상 실제 parse tree distance에서 벗어나지만 encoding된 tree정보는 일치하며, squared distance로 최적화하는 것이 가장 효과적이기 때문이다.)

3.1.3 Finding a parse depth-encoding norm

parse tree에서의 edge는 parse tree에 있는 단어들의 depth에 의해 결정된다. governance relationship(지배관계)에서 더 깊은 node는 지배 단어이다. parse tree에서의 depth는 norm과 같다. 이는 tree의 node를 결정한다. 이 tree depth norm을 ${\lVert w_i \rVert}$라고 한다.

우리는 squared L2 vector norm ${\lVert Bh_i \rVert}_{2}^{2}$ 으로 tree depth norm이 encoding되는 선형 변형이 존재한다는 것을 전제한다. 그리고 거리 가설처럼 depth norm가설은 best-approxiamted된 선형 변형을 찾을 수 있다.

\begin{matrix} \underset{B}{\min}\sum_{\ell}\frac{1}{\left\vert s_{\ell} \right\vert}\sum_i(\lVert w_i \rVert-{\lVert Bh_i \rVert}^2) \end{matrix}

3.2 Properties of the structural probe

squared distance space가 syntax tree distance를 encoding한 representation space에 내적이 존재한다는 주장을 테스트할 수 있다. 이는 모델이 단어가 다른 단어에 의해 지배되는 것을 encoding할 뿐만 아니라 syntax tree에서의 단어들 간의 proximity를 encoding한다는 것을 의미한다.

3.3 Tree depth structural probes

단어 $w_i$에 대한 parse depth $\lVert w_i \rVert$는 parse tree에서 $w_i$의 edge와 tree의 root에 의해 결정된다. 본 논문에서는 tree norm을 encoding한 word representation space에 squared norm이 존재하는지 확인하고자 한다. 결과적으로 norm이 distance와 크게 다르지 않고 depth가 norm으로 표현된다고 한다.

지금까지 다룬 내용들을 정리해보면, embedding에 syntax information이 잘 반영되어 있는가를 보기 위한 과정이다. embedding공간에 tree구조가 직접적으로 나타나면 매우 쉽겠지만 그렇지 않기 때문에 선형변환을 이용한다.
2021-03-27 (1)
2021-03-27 (2)
위 그림에서 하얀 부분은 3차원 공간(embedding 공간)이고 회색 부분은 2차원이다. 본 연구에서는 3차원 공간에 있던 geometry(3차원 공간에 있는 것들을 표현한 점들과 파라미터)들이 2차원에 가서도 유지되는 선형변환 개념을 기반으로 해당 2차원 공간을 어떻게 찾을 것인가를 탐구한다. 따라서 본 논문의 probe는 선형변환(linear transformation) B를 찾는 것을 목표로 한다.
The chef who ran to the store was out of food라는 문장에서 was와 chef는 6개의 단어를 끼고 있지만 syntactic residency측면에서 was와 chef의 distance는 1이고 was 와 가장 가까운 store는 distance 4가된다. 이처럼 vector space내에서 단어 간의 residency(distance)가 잘 측정되는 선형변환을 찾는 것이 본 논문의 목적이다. 즉, squared distance(squared L2 distance)와 tree distance간의 차이를 줄여나가는 방식으로 학습을 하여 적절한 선형변환을 찾고자 한다. 그리고 tree depth norm이 squared L2 vector norm으로 encoding되는 linear transformation이 존재할 것인데, 이를 찾는 문제도 linear transformation B를 찾는 문제로 치환을 하고자 한다.
정리를 하자면 본 논문에서는 parse tree에 대한 두 가지 geometry를 뽑는데 하나는 tree 구조 상의 distance, 하나는 parse tree depth이고 이 둘에 대한 선형 변환을 찾고자 한다는 것이다. 결국 depth norm과 distance norm을 가장 잘 근사하는 best-approximated model을 찾아 linear transformation B를 얻어내어 이 B를 가지고 다른 parse tree 혹은 다른 문장 embedding에 대해 선형변환을 하더라도 해당 task에 맞는 distance와 norm을 찾을 수 있게 하는 것이 최종 목표이다.

4. Evaluation

  • Representation models
    본 논문은 5.5B-word로 pre-trained된 ELMo의 weight를 사용한 ELMo model(1024 dimension)들과 BERTbase(768 dimension) 그리고 BERTlarge(1024 dimension)가 Penn Treebank의 parse tree를 얼마나 잘 재구성하는지를 통해 그들의 embedding 성능을 평가하고자 한다. BERT같은 경우에는 subword representation인데 이는 average pooling을해서 해결한다.
    평가하고자 하는 representation은 ELMoK, BERTbaseK, BERTlargeK라고 부른다.

  • Baselines
    정확한 비교를 위해 linear, ELMo0, Decay0, PROJ0을 함께 살펴본다.
    -linear는 단순히 left-to-right chain을 따라서 parse tree가 형성되는 모델이다. 이 모델의 hidden state를 가져와서 proving한다.
    -ELMo0은 contextual 정보 없이 character-level에서 word embedding이 된 모델로, position정보도 없는 모델이다.
    -DECAY0은 weight가 단어의 수에 따라 깎이는 방식으로 학습되는 모델이다. 이 모델은 contextual 정보는 담지만 parsing하는 법은 학습하지 않은 모델이다.
    -PROJ0은 random initialized된 ELMo모델이다. 이 모델도 contextual 정보는 담지만 parsing하는 법은 학습하지 않은 모델이다.

4.1 Tree distance evaluation metrics

2021-03-21 (4)
2021-03-27 (1)

위 그림의 회색부분에 존재하는 vector 간의 거리를 기반으로 tree를 생성할 수 있다면 vector들이 tree정보를 embedding한 것으로 볼 수 있다. test sentence의 predicted parse tree distance를 구한 후 이것으로 minimum spanning tree(회색 부분)을 만든다. 그리고 predicted tree를 UUAS(undirected unlabeled attachment score)에 대한 predicted tree를 gold tree과 비교하는 방식으로 평가한다. 왜 UAS가 아니라 UUAS로 테스트하는지는 안 나와있는지 UAS로 테스트한 것보다 UUAS가 더 잘 나왔던 것 아닐까 싶다.

UUAS는 UAS(unlabeled attachment score)이긴 한데 방향성이 없는 것이다.
2021-03-27 (3) 위 예시에서 root는 are이고 이것의 nsubj는 key이다. 이런 관계에서 방향성이 없는 것이 UUAS이다. 따라서 UUAS로는 두 단어 간에 어떠한 관계가 있다는 것은 나타나지만 무엇이 root인지는 알 수 없다. 거리 상관(distance correlation)의 경우 실제 distance와 predicted distance의 Spearman correlation(스피어만 상관계수; 두 변수 간의 순위를 부여하고 검증하는 상관분석법. -1에서 1사이 값을 갖는다)을 계산한다. 길이별 문장에 대한 상관의 평균을 구하고 5-50길이의 문장에 대한 macro average(매크로 평균) 확인한다. 이를 “distance Spearman(DSpr.)” metric이라고 부른다.

4.2 Tree depth evaluation metrics

tree의 depth를 재구성하는 능력은 tree depth evaluation metric을 활용하여 평가한다. 이것도 distance evaluation과 마찬가지로 실제 depth ordering과 predicted ordering 사이의 Spearman correlation확인한다. 우선 동일한 길이의 문장에 대해 평균을 내고 5050길이의 문장에 대해 평균을 낸다. 이를 “norm Spearman(NSpr.)이라고 부른다. 그리고 모델이 root를 판별할 수 있는지를 확인하기 위해 root%라는 것을 함께 활용하여 평가를 진행한다.

5. Result

2021-03-28 (3)

위 표에서 Linear, ELMo0, DECAY0, PROJ0은 baseline이고 ELMo1, BERTbase7, BERTlarge15, BERTlarge16은 실제로 embedding이 syntactic tree정보를 제고해 낼 수 있을 만큼의 통사적 정보를 지니는지 확인하기 위해 사용된 모델이다. UUAS기준으로 BERTlarge15가 82.5로 가장 높은 점수르 보였고 root%의 경우에는 BERTlarge16이 가장 높은 점수를 보였다.

5.1 Reconstructed trees and depths

2021-03-28 (2)

위 그림은 각 모델이 그린 parse tree이다. 윗부분의 검은 선은 실제 정답이고 아랫부분의 선은 structural prove가 예측한 것이다. BERTlarg16은 실제 정답과 거의 일치하는 것을 볼 수 있다. 본 연구에서 BERT를 학습시킬 때 parse tree를 직접 학습시키지 않았음에도 불구하고 주변 문맥을 고려하여 parse tree를 제대로 예측하였다. 이를 통해 embedding공간에 parse tree가 반영된 선형변환된 공간이 있다는 것을 확인할 수 있다. ELMo1의 경우에는 BERT보다는 부정확하다. edge들이 조금씩 다르다. PROJ0은 비교를 위해 사용된 baseline모델로, parsing능력이 없어 아주 엉망진창인 것을 확인할 수 있다.

2021-03-28 (4)

위 시각화 자료에서 왼쪽이 gold parse distance matrix이고 오른쪽이 structural prove가 예측한 결과인데 매우 비슷하게 잘 나온 것을 확인할 수 있다. 색이 어두울수록 가까운 것이고 밝을수록 먼 것이다.

2021-03-28 (5)

위 표는 parse depth에 대한 것이다. 검은색 동그라미가 실제 정답이고 파란색 네모가 BERTlarge16 그리고 빨간색 세모가 ELMo이다. 위 문장에서 includes가 root이고 그 밑으로 raising, plan, … 순으로 subtree가 나아가는 것을 볼 수 있다. BERTlarge16와 ELMo 둘 다 비슷하게 잘 예측한 것을 볼 수 있다.

이런 시각화 너무 마음에 든다…

5.2 Analysis of linear transformation rank

2021-03-28 (7)

위 표는 본 실험이 아닌 추가적으로 진행된 실험의 결과를 시각화한 것이다. Probe의 maximum size가 어느 정도가 적당한지, 어느정도 size가 syntactic information이 vector space에 compact하게 잘 encoding되기에 적합한지 확인하기 위해 선형변환에 가장 효과적인 모델들을 대상으로 확인하였다. 그 결과 놀랍게도 효과적인 linear transformation이 요구하는 dimension이 굉장히 낮게 나왔다. 본 연구에서는 다양한 k에 대해 structural probe를 훈련시켰다, 즉 $B\in\mathbb{R}^k$(transformed vector $Bh$가 $\mathbb{R}^k$에 있다). 위 표를 보면 $k$가 64정도 되니 성능이 수렴하기 시작한다. 따라서 64-128사이 정도의 linear transformation B가 적당하다는 것을 알 수 있다($k$가 커도 별 쓸모가 없다. 64-128 이후로 다 고만고만하다).

5.3 A brief example on subject-verb number agreement

verb와 그에 대한 subject 사이에 방해 요소가 되는 명사의 수가 아무리 많아도 verb는 subject의 수에 맞춰져야 한다. observational study에서 단수 주어와 복수 intervening noun들이 있는 문장에 대해 언어모델이 단수 동사와 복수 동사 중 어느 것에 높은 likeihood를 부여하는지를 확인하는 연구를 했다. parse tree distance formulation에서 subject-verb agreement behavior는 subject와 verb의 사이의 distance가 1이라는 것을 통해 설명될 수 있다. 본 연구에서는 이에 대해 증명하지 않았다. 하지만 아래 시각화 자료들을 보면 이것이 가능함을 알 수 있다. (조금 더 정확하게 말하자면 우리는 이 문제가 original subject-verb number agreement question과 일치한다는 것을 주장하는 것이 아니다. 모델이 정확한 동사 형태에 접근할 수 잇다는 것이다.) 아래는 BERT-large, layer 16, 4 sentences에 대한 structural probe가 예측한 distance matric과 minimum spanning tree이다. 각 문장들을 보면 점점 새로운 “attractor”가 추가되고 있다.

2021-03-28 (8)

위 parse tree를 보면 알 수 있듯이 막 엄청 정확한 것은 아닌데(“the”를 포함하지 않는다) 방해요소가 많아져도 subject와 verb가 가까운 것을 확인할 수 있다.

2021-03-28 (9)

6. Conclusion

영어 parse tree의 geometry가 language deep model의 geometry로 유사하게 복원이 가능하다는 것이 매우 흥미롭다. 본 연구가 contextualized word representation의 geometry에 대한 syntactic property를 연구하는 것의 시작이기를 바란다. hidden state space의 linear transformation에서 찾아지는 구조가 dependency syntax만 있지는 않을 것이다. 이후 다른 graph structure를 더 찾아볼 계획이다.

7. Discussion

논문에 리뷰어의 진술을 언급하고 이에 대해 친절하게 반박하는 부분이다…?
리뷰어가 이거 그냥 headness에 대한 얘기만 하는 거 아니냐고 비판한 것에 대해 저자는 본 논문은 syntactic kowledge가 폭넓게 반영되었다는 것을 test한 것이 아닌 pair of words가 자신들의 syntactic distance를 잘 알고 있는지를 test한 것이라고 말했다. 그리고 그것도 vector space 내의 structural property를 가지고 이야기를 하는 것이기 때문에 이 점에서는 한계가 있을 수 있지만 본 논문의 의의는 embedding 내의 여러가지 type의 graph structure가 잘 embedding되어 있는지를 확인하는 것이라고 하였다.

Reference

Hewitt.J.”A Structural Probe for Finding Syntax in Word Representations,”Association for Computational Linguistics. 2019

https://nlp.stanford.edu/~johnhew/structural-probe.html#the-structural-probe

https://github.com/john-hewitt/structural-probes