POS 是依据语法功能划分,是词语在区别词类时用到的属性。
rule-based
语言专家根据词法及语言学知识编制的规则。
learning-based
从专家标注的语料库中学习到用于自动标注的模型
符号 | 含义 |
---|---|
\(N\) | 训练数据中的句子总数 |
\(O_i\) | 第 i 个句子(词序列) |
\(o_i\) | 某句子中的第 i 个词 |
\(Q_i\) | 第 i 个句子对应的词性标注(词性序列) |
\(q_i\) | 某句子中的第 i 个词对应的词性 |
\[ \max_Q P(Q|O) \]
由于语料库不可能包含所有可能出现的句子,故应得到一个更加宽泛的的表达式。利用贝叶斯法则得等价模型 \[ \max_Q P(O|Q)P(Q) \]
\[ \max_Q \prod P(o_i|q_i) * \prod P(q_j|q_{j-1}), \]
其中\(P(o_i|q_i)\)被称为发射概率,是通过统计每个单词在语料库中的出现情况得到的。对于因某个单词没有在语料库中出现导致发射概率为 0 进而导致整个句子出现概率为 0 的情况,须做一些平滑处理。
对于给定的观测序列,求所有可能状态序列的概率,并将最大概率的状态序列最为所求结果。设观测序列长度为 T ,可选状态数为 M,可选观测数为 N,首先在最一开始时由初始状态概率向量 \(\pi\)求出后续 T-1 个状态概率向量\(i_t = \pi A^{t-1}\) ,那么一个可能状态序列的概率为,对一个句子的词性标注的时间复杂度为。
使用离散时间点、离散状态,并做了马尔可夫假设,由此系统产生了马尔可夫过程的模式,它包含一个\(\pi\)向量和一个状态转移矩阵。
隐马尔科夫模型是在一个标准的马尔科夫过程中引入一组观察状态,以及该组观察状态与隐藏状态间的概率关系。