[Paper] Recurrent Attention Model 논문 리뷰 - 2

2021. 9. 5. 16:01논문리뷰

반응형

이전 시리즈 : https://hi-lu.tistory.com/entry/Paper-Recurrent-Attention-Model-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-1?category=992577 

 

[Paper] Recurrent Attention Model 논문 리뷰 - 1

[SAI 동아리 발표] RAM(Recurrent Attention Model) 관련 논문들. 원래는 한 포스트였지만, 이 블로그에 쓰다 보니 조금 긴 거 같아서 2개 포스트로 쪼갠다. 최근 들어 HAR(Human Activity Recognition), 특히 vis..

hi-lu.tistory.com

이어서 두 번째 논문을 리뷰해보자. 이번 포스트에서는 이전 포스트 논문의 mother paper를 리뷰할 것이다.


 

2. Recurrent Models of Visual Attention

(https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf)

 

 

이제 mother paper를 살펴보자. 2014년 deepmind에서 나온 논문. 큰 이미지에 대한 CNN의 연산량이 너무 많아지자 대안으로 나왔다. 다른 위치, scale에서의 cropped bounding box를 찾는 것의 연산은 결국 전체 이미지의 filter map에서 오기 때문이라고 논문은 기술하고 있다. 본래 object detection을 사람이 한다고 간주한다면 눈의 움직임이 바탕이 된다. 이에 착안하여 전체 이미지를 한 번에 처리하지 않고, 단계적으로 location을 찾는다.

 

특이점은 "greedy action select이 아닌 end-to-end optimization을 쓴다"는 것. 결국 이것은 object detection, 즉 분류 문제이기 때문이다.



 

Model을 크게 보면 RNN구조임을 알 수 있다.

model network

 

 

 

- x: raw image

 

- l: location tuple. 이미지 중앙이 (0,0), 맨 밑 아래가 (-1,-1)이다.

 

- glimpse network: 망막같은 역할을 하는 retina-like representation ρ와 location tuple l을 통해 glimpse를 생성한다. location을 추출할 때는 bandwidth-limited sensor(본문상 정해진 patch 크기)를 가정한다. 중심 부분(l)은 높은 해상도로, 주변 부분은 낮은 해상도로 반환한다. 이때 이 낮은 해상도를 glimpse로 부른다. ρ와 l은 각각 linear layer를 통과한 후, ReLU 함수를 통해 합쳐진다.

 

 

- Internal state: agent에 들어가게 될 state로는 past observation을 사용한다. RNN 의 hidden unit을 사용.

- Core network: state를 뽑아내기 위한 network. g(glimpse)와 h(hidden)을 받아와서 state(next_hidden)를 반환한다.

- Agent: action 2개를 반환한다. 하나는 l(next location), 다른 하나는 a(environment action)이다. a는 state에 영향을 줄 수 있는 친구로 언제 glimpse를 중단시킬 건지를 결정한다. 여기서는 분류니깐 softmax 사용.

- reward: 간단하게 labeling 맞추면 1, 아니면 0.

 

 

POMDP(Partially Observable Markov Decision Process)를 기반으로 한다.(DRQN같이!) 즉, state observe가 제한적이라 observation에 의지해야 한다.

 

 

 

 

objective function은 아래를 쓴다. reward가 커져야 하므로 J를 maximize해야 한다.

objective function
gradient J

 

위의 수식은 REINFORCE rule인데, 현재 policy를 log probablity로 표현한 것이다.

∇θ log π(u|s(1:t); θ)은 RNN의 gradient와 같다.




 

 

 

실험은 크게 MNIST, cluttered Translated MNIST, cluttered Non-Centered MNIST 세 가지로 이루어졌다. CNN보다 좋은 성능을 보였다.

result 1

 

 

result 2

 

 

추가적으로 dynamic visual environment에서도 해당 policy를 통해 성능을 낼 수 있음을 시사한다. (공튀기고 잡기 게임. http://www.cs.toronto.edu/~vmnih/docs/attention.mov.)

 

 

 

결론:

 

1. RAM은 image size에 관계 없이 독자적으로 수행할 수 있다.

2. 망막과 같이 센터와 주변을 살펴보므로 clutter(ex. noise)를 무시할 수 있다.

 


글을 옮기다가 옆에 있는 친구한테 작년에 망막을 concept으로 한 논문을 읽었다고 말했더니 XAI(explainable AI) 논문에 대해 말해줬다. 해당 논문 내용은 super pixel 개념으로 이미지를 왜 X라고 분류했는지를 알려주는 거라고 한다.(LIME: local interpreter model agnostic explanation)

내가 리뷰했던 페이퍼가 14, 15년도 논문이라 지금은 어떤식으로 발전했을지 궁금했는데, 다르지만 비슷한 컨셉이 XAI 학계에서 연구되고 있다니! 

728x90
반응형