自然语言处理:transformer

阅读量 ,评论量

背景

Simple RNN:encoder-decoder结构,encoder output作为decoder的initial states的输入,随着decoder长度的增加,encoder output的信息会衰减。

Contextualized RNN:decoder在每个timestep的input上都会加上一个context,以解决decoder逐渐“遗忘”源端序列信息的问题。

Contextualized RNN with soft align (Attention):为了让每个decoder端的token在解码时用到的context有所侧重,计算当前token与context之间的”相关度”以做一个”attention”操作。