主权项 | 一种基于联想网络的语义相关性计算方法,其特征在于,包括如下步骤:步骤1,共现词频统计步骤步骤1.1:解析维基百科数据库转储文件,对多种不同的词对共现方式统计词对共现频率,并统计词对中单个词的出现频率;步骤1.2:根据所述词对共现频率和词对中单个词的出现频率,对每种词对共现方式计算词对之间的联想概率;步骤2,网络构建及参数学习步骤构建有向加权图联想网络:在有向加权图联想网络中,每个词语作为一个结点,两个结点间存在双向边的条件是:当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零;边上所带的权重用于度量人脑由出边一词联想到入边一词的概率,所述权重通过参数学习得到;其中,所述参数学习采用线性回归机器学习算法,具体为:以自由联想方法所收集的词语数据计算自由联想的条件概率,并将自由联想的条件概率作为参数学习训练数据的标注真值,以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重,从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率;步骤3,语义相关性计算步骤利用词对之间的联想概率、有向加权图联想网络,计算词对或句对之间的语义相关性。 |