์ค๋์ NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE์ ๊ณต๋ถํด๋ณด๊ฒ ์ต๋๋น!๐ค
Introduction
Neural machine translation์ machine translation๋ถ์ผ์์ ์๋ก ๋ฐ๊ฒฌ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ทธ๋์ ํ๋์, ์ปค๋ค๋ ์ ๊ฒฝ๋ง์ ์ค๊ณํ๊ณ ํ์ต์ํด์ผ๋ก์จ ์ฌ๋ฐ๋ฅธ ๋ฒ์ญ์ ํ๋๋ก ํฉ๋๋ค. ๋ณดํต ์ด๋ฌํ ์ ๊ฒฝ๋ง์ ํตํ ๊ธฐ๊ณ๋ฒ์ญ์ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ์ด ๋ฉ๋๋ค. ์ธ์ฝ๋ ์ ๊ฒฝ๋ง(encoder nerual network)๋ source sentence(๋ฒ์ญํด์ผ ํ๋ ๋ฌธ์ฅ)์ ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉํด ์ค๋๋ค. ๋์ฝ๋ ์ ๊ฒฝ๋ง์ ์ธ์ฝ๋ฉ๋ ๋ฒกํฐ๋ก๋ถํฐ ๋ฒ์ญ์ ํ๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ค์, encoder-decoder system์ ํตํด์ ์ฌ๋ฐ๋ฅธ ๋ฒ์ญ์ผ ํ๋ฅ ์ ์ต๋ํ ์ํค๋๋ก ํ์ต์์ผ ์ค๋๋ค.
์ด ์ธ์ฝ๋ฉ์ ์ญํ ์ ์ ๊ฒฝ๋ง์ด ํด์ค ์ ์๋๋ฐ ๊ทธ๋ ๊ฒ ๋๋ฉด ๊ธธ์ด๊ฐ ๊ธด ๋ฌธ์ฅ์ ํด์ํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ align๊ณผ translate์ ํจ๊ป ํด์ค ์ ์๋ encoder-decoder model์ ๋ ๋์ ๋ฒ์ ์ ์ ์ํฉ๋๋ค.
Each time the proposed model generates a word in a translation, it (soft-)searchs for a set of positions in a source sentence where the most relevant information is concetrated.
source sentence์์ ๊ด๋ จ์๋ ์ ๋ณด๊ฐ ๋ชฐ๋ ค์๋ ๋ถ๋ถ์ ๋ํ๋ด๋ context vector๋ฅผ ๊ฐ์ง๊ณ target word๋ฅผ ์์ธกํด์ค๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๋ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ๋จ์ผ ๊ณ ์ ๊ธธ์ด์ ๋ฒกํฐ๋ก ๋ฐ๊ฟ์ฃผ๋ ๊ฒ์ด ์๋๋ผ adaptiveํ๊ฒ ๋ฒกํฐ์ ๋ถ๋ถ์งํฉ๋ง์ ์ ํํด์ฃผ๊ณ ๊ทธ๊ฒ์ ๊ฐ์ง๊ณ ๋ฒ์ญ์ ํด์ค๋๋ค.
Background
ํ๋ฅ ์ ์ธ ๊ด์ ์์ '๋ฒ์ญ'์ด๋ ๋ฌด์์ ์๋ฏธํ๋ ๊ฒ์ผ๊น์?
translation is equivalent to finding a target sentence y that maximizes the conditional probability of y given a source sentence x, i.e. arg maxy p(y | x).
์ผ๋จ conditional distribution์ด ๋ฒ์ญ ๋ชจ๋ธ์ ์ํด์ ํ์ต๋๋ฉด, source sentence๊ฐ ์ฃผ์ด์ก์ ๋, conditional probability๋ฅผ ๊ทน๋ํ์ํค๋ ๋ฌธ์ฅ์ ์ฐพ์์ค๋๋ค. ์ต๊ทผ์ ์ ๊ฒฝ๋ง์ ํตํด์ conditional distribution์ ์ฐพ๋ ๋ชจ๋ธ์ด ์ ์๋๊ณ ์๋๋ฐ, ์ด๋ฅผ ์ํด์ ์ด 2๊ฐ์ง์ RNN๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ์์์ ์๊ธฐํ ๊ฒ์ฒ๋ผ ํ๋๋ encoder์ญํ ์, ๋ค๋ฅธ ํ๋๋ decoder์ญํ ์ ํด์ค๋๋ค. ๊ทผ๋์ ๋์จ ์ ๊ทผ๋ฒ์์๋ ๋งค์ฐ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
2.1 RNN Encoder-Decoder
-
๋จผ์ ์ธ์ฝ๋๊ฐ x=(x1,···,xTx)๋ฅผ vector c๋ก ์ฝ์ด ๋ค์ ๋๋ค.
- ht = f (xt, ht−1)(์ฌ๊ธฐ์ f๋ LSTM์ ์ฌ์ฉ)
- c = q({h1,··· ,hTx})(q({h1,··· ,hT})=hT)
-
์ฌ๊ธฐ์ ht๋ ์๊ฐ t์ผ ๋ hidden state๋ฅผ ์๋ฏธํ๊ณ , c๋ hidden state์ sequence๋ก๋ถํฐ ๋ง๋ค์ด์ง ๋ฒกํฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
-
๋์ฝ๋๋ c์ ์ด์ ์ ์์ธก๋ ๋จ์ด๋ค {y1 , · · · , yt′ −1 }์ ์ด์ฉํ์ฌ yt'๋ฅผ ์์ธกํ๊ธฐ ์ํด ํ์ต๋ฉ๋๋ค. ๊ทธ ํ์ ๋์ฝ๋๊ฐ ํ๋ฅ ์ ๊ณ์ฐํด์ฃผ๋น๋ค.
-
์ฌ๊ธฐ์ g๋ yt์ ํ๋ฅ ์ ๋ํ๋ด์ฃผ๋ nonlinear, multi-layered function์ด๊ณ st๋ RNN์ hidden state๋ฅผ ์๋ฏธํฉ๋๋ค.
Learning to align and translate
3.1 Decoder
p(yi|y1, . . . , yi−1, x) = g(yi−1, si, ci) ์์ ํตํด์ conditional probability๋ฅผ ๊ณ์ฐํด ์ค์ผ ํฉ๋๋ค. ์ด 3๊ฐ์ง๊ฐ ํ์ํ๊ฑฐ์ฃ ! ์ฒซ๋ฒ์งธ, si๋ RNN hidden state๋ฅผ ์๋ฏธํฉ๋๋ค. si =f(si−1,yi−1,ci) ๋ฅผ ํตํด์ ๊ณ์ฐํด์ค๋๋น. ๋๋ฒ์งธ ci๋ (h1 , · · · , hTx )์ annotation์ ๋๋ค. ์๋ค๋ ์ธ์ฝ๋๊ฐ input ๋ฌธ์ฅ์ ๋งคํํ ๋ hidden state์ผ๋ก ์ฐ์ธ ์ ๋ค์ ๋๋ค. ๊ทธ๋์ hi๋ i๋ฒ์งธ ๋จ์ด ์ฃผ๋ณ ๋ถ๋ถ๋ค์ ๋ ๋ง์ ์ํฅ์ ๋ฐ๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ต๋๋ค. ์ฌ๊ธฐ์ ci๋ alpha ij์ hj๋ฅผ ์ด์ฉํ์ฌ ๊ณ์ฐ์ด ๋ฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ alpha ij๋ ์๋์ ์์ผ๋ก ๊ณ์ฐ์ด ๋ฉ๋๋ค.
: ์ด๋ฐ์์ผ๋ก annotation๋ค์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ํฉ๊ณผ ๊ฐ์ ์ ๊ทผ๋ฒ์ expected annotation์ ๊ณ์ฐํ๋ ๊ฒ ์ด๋ผ๊ณ ๋ ๋ถ๋ฆ ๋๋ค. alpha ij๋ฅผ ํ๊ฒ ๋จ์ด yi๊ฐ source word xj์ align๋ ํ๋ฅ ์ด๋ผ๊ณ ๋ด ์๋ค. ๊ทธ๋ผ ci๋ alpha ij๋ฅผ ์ด์ฉํ์ฌ ๊ณ์ฐ๋ expected annotation์ด๋ผ๊ณ ํ ์ ์๊ฒ์ฃ . ์๋ํ๋ฉด ci๋ alpha ij * hj์ ํฉ์ด๋๊น์. ์ง๊ด์ ์ผ๋ก ๋งํ์๋ฉด, ์ด๋ ๋์ฝ๋์์ mechanism of attention ์ ์คํํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋์ฝ๋์ ์ด๋ฌํ ํน์ฑ ๋๋ถ์ ์ธ์ฝ๋๊ฐ ๋ชจ๋ ๋ฌธ์ฅ์ ์ ํด์ง ๊ธธ์ด์ ๋ฒกํฐ๋ก ๋ฐ๊ฟ์ผํ๋ ๋ถ๋ด์ ๋๊ฒ ๋ฉ๋๋ค!
3.2 Encoder
์ธ์ฝ๋๋ input sequence x๋ฅผ ์ฝ์ต๋๋ค. encoder์๋ BiRNN์ ์ฌ์ฉํ๊ณ ์๋๋ฐ, BiRNN์ forward RNN๊ณผ backward RNN์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋น. forward RNN์ ๋ฌด์จ ์ญํ ์ ํ ๊น์? input sequence๋ฅผ ์ฝ์ด๋ค์ด๊ณ forward hidden states( ( h 1, · · · , h Tx )๋ฅผ ๊ณ์ฐํด์ค๋๋ค. ๋ฐ๋๋ก backward RNN์ ๋ฐ๋ ์์๋ก sequence๋ฅผ ์ฝ์ด๋ค์ด๊ณ backward hidden states๋ฅผ ๊ณ์ฐํด์ค๋๋ค. ์ด๋ฐ์์ผ๋ก xj์ฃผ๋ณ์ ํฌํจํ๋ annotation hj๊ฐ ๊ณ์ฐ๋๋ฉด ์ด๋ ๋์ฝ๋์์ ์ฌ์ฉ์ด ๋ฉ๋๋ค.
Experiment settings
** 4.1 Dataset **
monolingual corpus(ํ๊ฐ์ง์ ์ธ์ด๋ก ์ด๋ฃจ์ด์ง)์ด ์๋๋ผ parallel corpora data ์ฌ์ฉ. ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด์ ๊ฐ ์ธ์ด๋ง๋ค ๊ฐ์ฅ ๋ง์ด ์ด์ฉ๋๋ ๋จ์ด 30000๊ฐ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค.
** 4.2 Models **
โsigle maxout hidden layer
- ๊ธฐ์กด์ RNN Encoder-Decoder ๋ชจ๋ธ, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ RNNsearch๋ชจ๋ธ ๋๊ฐ์ง๋ฅผ ํ์ต.
- ์ฒ์์ 30๊ฐ ๋จ์ด๋ฅผ ํฌํจํ RNNencdec-30, RNNsearch-30์ ๋๋ฒ์งธ์ 50๊ฐ ๋จ์ด๋ฅผ ํฌํจํ RNNencdec-50, RNNsearch-50์ ์ฌ์ฉ.
- ๊ฐ ๋จ์ด์์ธก์ ํ์ํ conditional probability๊ณ์ฐ์ ์ํด์ multilayer network with a single maxout hidden layer์ฌ์ฉ
- SGD ์ฌ์ฉ
- ์ ์ผ ๊ทผ์ ํ๊ฒ conditional probability๋ฅผ ์ต๋ํ ์ํค๊ธฐ ์ํด beam search ์ฌ์ฉ
Results
5.1 Quantitave results
- BLEU ์ค์ฝ์ด๋ฅผ ์ธก์ ํด๋ณด๋ฉด RNNsearch๊ฐ RNNencdec์ ์ฑ๋ฅ์ ํจ์ฌ ๋ฐ์ด๋์.
- RNNencdec์ ๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ฐ๋ฉด, RNNsearch๋ ๊ด์ฐฎ์.
5.2 Qualitative analysis
-
alignment
- ์์ด์ ๋ถ์ด์ฌ์ด์ alignment๋ ๋งค์ฐ monotonicํ๋ค.
- ๊ฐ๊ฐ์ matrix์ ์ฌ์ ๋ฐฉํฅ์ด weight์ด ์ ์ผ ํฐ ๊ฒ์ ํ์ธํ ์ ์๋ค.
- soft-alignment์ ์ฅ์ ? the man์ ๋ฒ์ญํ ๋, man์ ๋ฐ๋ผ the์ ๋ฒ์ญ์ด ๊ต์ฅํ ์ค์ํ๋ฐ soft alignment๋ ๊ทธ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
-
long sentences
- ์ด์ ์ ๋ชจ๋ธ๋ณด๋ค ๊ธด ๋ฌธ์ฅ์ ํด์ํ๋๋ฐ์ ์์ด์ ํ์ฐํ ์ฑ๋ฅ์ด ์ข๋ค.
Related Work
6.1 learning to align
handwriting synthesis๋ก๋ถํฐ ์ ์๋ aliging ์ ๊ทผ๋ฒ์ธ๋ฐ, ๋ค๋ฅธ์ ์ weight mode ๊ฐ ํ๋ฐฉํฅ์ผ๋ก๋ง ์์ง์ธ๋ค๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ์ ์์ด์ ๊ต์ฅํ ํฐ ์ ํ์ ์ด๋ผ๊ณ ํ๋ค. ์๋ํ๋ฉด ๋ฌธ๋ฒ์ ์ผ๋ก ์ณ์ ๋ฌธ์ฅ์ ๋ฒ์ญํ๊ธฐ ์ํด์๋ (long-distance)reordering์ด ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ์ ๊ทผ๋ฒ์ source sentence์ ๋ชจ๋ ๋จ์ด์ annotation weight์ ๊ณ์ฐํด์ค๋ค.
6.2 Neural networks for machine translation
๊ธฐ์กด์ neural network๋ ๊ธฐ์กด์ ํต๊ณํ์ ๊ธฐ๊ณ์ ๋ํ ๋จ์ผ feature๋ฅผ ์ ๊ณตํ๊ฑฐ๋ ํ๋ณด ๋ฒ์ญ๋ณธ๋ค์ ๋ฆฌ์คํธ๋ฅผ ์ฌ๋ญํนํ๋๋ฐ์ ์ฌ์ฉ๋์๋ค. ๊ธฐ์กด์ neural network๋ฅผ tarket-side language model๋ก์จ ์ฌ์ฉํ์๋๋ฐ, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ source sentence์์ ๋ฐ๋ก ๋ฒ์ญ์ ๋ฐ์์ํค๊ณ ๊ทธ ์์ฒด์์ ๋์ํ๋ ๋ชจ๋ธ์ด๋ค.
Conclusion
This frees the model from having to encode a whole source sentence into a fixed-length vector, and also lets the model focus only on information relevant to the generation of the next target word.
๋ฐ๋ผ์ RNNsearch๋ ๊ธด ๋ฌธ์ฅ์ ๋ฒ์ญํ ๋ ๊ต์ฅํ ์ ์ฉํ๊ณ ์ข์ ์ฑ๋ฅ์ ๋ ๋๋ค. ์์ผ๋ก๋ unknown , rare ๋จ์ด๋ค์ ๋ ์ ๋ค๋ฃจ๋ ๊ฒ์ ํด๊ฒฐํด์ผ ํ๋ค๊ณ ํฉ๋๋ค.