6. 概率图模型
Last updated
Last updated
节点:隐含节点(知识)、观测节点(数据)
边:有向边(Bayesian)、无向边(Markov)
模型:朴素贝叶斯,最大熵模型,隐马尔可夫 HMM,条件随机场 CRF,主题模型
Bayesian Network
Markov Network
,其中
预测样本属于特定类别的概率
假设特征相互独立,
满足约束的模型中,选取熵最大的模型 =>
最大熵模型,归结为学习最佳的参数 w,使得 最大化
离散分布 :
连续分布 :
观测变量 X,预测变量 Y,其他变量 Z
生成式模型:
对 联合概率分布 建模,计算边缘分布
朴素贝叶斯、Bayesian Network、pLSA、LDA、HMM
判别式模型:
直接对 条件概率分布 建模,然后消掉无关变量 Z
最大熵模型、CRF
隐马尔可夫模型 HMM:序列标注问题,e.g. 分词 {Begin,End,Middle,Single} 有监督 / 无监督
概率计算问题:已知 所有参数,计算 观测序列 Y 出现的概率(前向 / 后向算法)
预测问题:已知 所有参数 和 观测序列 Y,计算最可能的隐状态序列 X(Vertebi 动态规划)
学习问题:已知 观测序列 Y,求解 模型参数(Baum-Welch 算法 EM的特例)
标注偏置问题 Label Bias Problem
最大熵马尔可夫模型 MEMM
去除 HMM 中观测状态相互独立的假设,考虑整个观测序列,表达能力更强
HMM - 生成式模型,MEMM - 判别式模型
, 其中
Z 为局部归一化因子,
标注偏置问题:因为 局部归一化,隐状态倾向于转移到后续状态可能较少的状态上,以提高整体后验概率
条件随机场 CRF 在 MEMM 基础上,进行 全局归一化,解决局部归一化带来的标注偏置问题
特殊的概率图模型,从文本库中发现有代表性的主题(词分布),并计算每篇文章对应哪些主题
pLSA(Probabilistic Latent Semantic Analysis)概率学派
文章 d (M),主题 z (K),词 w (N):
文本生成概率 似然函数
对数似然函数,EM 算法求解
LDA(Latent Dirichlet Allocation)贝叶斯学派
pLSA 的贝叶斯版本,主题分布 / 词分布 加入 Dirichlet 先验( 是超参数)
求解主题分布 、词分布 的期望,可以用 Gibbs Sampling(条件分布 <-> 联合分布)
随机给定每个单词的主题,其他固定,根据转移概率抽样每个单词的新主题
困惑度
60% train, 20% valid, 20% test,选择困惑度极小值点,或者下降变慢的时候
另一种方法:Hierarchical Dirichlet Process, HDP,非参数模型
不需要指定主题数量 K,可以自动调整
但概率图模型复杂,训练缓慢,不常用
冷启动:基于内容的推荐
用户:注册信息、搜索关键词、其他信息,推测用户兴趣主题
物品:基本信息,推测电影主题
系统:用户主题 + 物品主题 + 先验知识(哪些主题的用户喜欢哪些主题的物品)