有没有大神研究过最大熵模型,最大熵模型里面的优化算法GIS和IIS有什么区别??跪求大神帮忙解答!


如题,最大熵模型里面的优化算法GIS和IIS有什么区别??跪求大神帮忙解答!!
已邀请:

寒老师

赞同来自: July yang91


GIS(generalized iterative scaling)是Darroch 和 Ratcliff 在七十年代提出的通用迭代算法。大致步骤如下:
1) 假定第零次迭代的初始模型为等概率的均匀分布。
2)用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们变大。即对每个 i 调整λi : λi+ = logE˜p(fi)/Ei
3)重复步骤 2 直到收敛。

GIS 算法很尴尬的地方在于每次迭代的时间都很长,且需要迭代很多次才能收敛,不太稳定,有时候在 64 位计算机上都会出现溢出。

八十年代,Della Pietra 在 IBM 对 GIS 算法进行了两方面的改进,提出了改进迭代算法 IIS(improved iterative scaling),这使得最大熵模型的训练时间相对GIS缩短了一到两个数量级(实际上是更少的迭代步数,但是每步时间会长一点)。这样最大熵模型才有可能在工业界用起来。

IIS与GIS最大的区别在于修正λ的方法。
1)对所有 i 初始化 λi= 0
2)对所有 i
a)求解方程∑x,y˜p(x)p(y|x)fi(x,y)exp(∆λif#(x,y)) = ˜p(fi)的解∆i,其中
test.png

b)根据∆λi更新λi的值: λi← λi+ ∆λi
3)重复步骤 2 直到收敛。

以上。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~