使用CNN计算做文档相似度计算


如何使用CNN 来做文档的相似度计算,给定了一个训练语料,标注结果是0,1
已邀请:

寒老师

赞同来自: July zy123


一般相似度相似度计算依赖于2个关键环节:
1)内容的表示(document/image => feature)
2)相似度测度标准(大家熟知的欧氏距离、cos距离、皮尔逊距离)

在图像的相似度计算中,一般我们会训练一个CNN网络用于分类(比如图像识别),接着用这个网络对于新的输入图片计算feature(简单的方式就是取出某一层的output作为特征向量),然后用cos距离等测度标准去计算相似度。

文档的话,可以试试用CNN做分类(比如主题或者褒贬分类等),然后用得到的CNN去抽取特征,再用这些基本的测度标准去计算相似度。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~