开发者俱乐部

标题: 基于联想网络的语义相关性计算方法 [打印本页]

作者: jack    时间: 2016-2-5 00:13
标题: 基于联想网络的语义相关性计算方法
基于联想网络的语义相关性计算方法 审中-实审
申请号:201510256490.6 申请日:2015-05-19

摘要:本发明提供了一种基于联想网络的语义相关性计算方法,包括步骤:步骤1,共现词频统计步骤,步骤2,网络构建及参数学习步骤,步骤3,语义相关性计算步骤。本发明通过引入自由联想方法所收集的数据模拟人脑对于词对的联想概率度量,提高语义相关性计算准确性,并通过引入维基百科词对共现频率数据,保证了联想网络的大规模和非稀疏两个重要特性,从而实现任意词对和句对之间的语义相关性计算,而且通过基于中间结点计算间接联想概率和扩充词袋,进一步提高语义相关性计算准确性。
申请人: 上海交通大学
地址: 200240 上海市闵行区东川路800号
发明(设计)人: 朱其立 张可阳
主分类号: G06F17/27(2006.01)I
分类号: G06F17/27(2006.01)I



2015-12-02 实质审查的生效IPC(主分类):G06F 17/27申请日:20150519
2015-09-02 公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。


主权项 一种基于联想网络的语义相关性计算方法,其特征在于,包括如下步骤:步骤1,共现词频统计步骤步骤1.1:解析维基百科数据库转储文件,对多种不同的词对共现方式统计词对共现频率,并统计词对中单个词的出现频率;步骤1.2:根据所述词对共现频率和词对中单个词的出现频率,对每种词对共现方式计算词对之间的联想概率;步骤2,网络构建及参数学习步骤构建有向加权图联想网络:在有向加权图联想网络中,每个词语作为一个结点,两个结点间存在双向边的条件是:当且仅当这两个结点所对应的两个词语之间在所述多种不同的词对共现方式中至少一种词对共现方式下的共现频率不为零;边上所带的权重用于度量人脑由出边一词联想到入边一词的概率,所述权重通过参数学习得到;其中,所述参数学习采用线性回归机器学习算法,具体为:以自由联想方法所收集的词语数据计算自由联想的条件概率,并将自由联想的条件概率作为参数学习训练数据的标注真值,以步骤1.2计算得到的词对之间的联想概率作为参数学习训练数据的学习特征,学习得到权重,从而将在所述多种不同的词对共现方式下词对之间的联想概率统一为模拟人脑的联想概率;步骤3,语义相关性计算步骤利用词对之间的联想概率、有向加权图联想网络,计算词对或句对之间的语义相关性。
公开号 104881400A
公开日 2015-09-02








欢迎光临 开发者俱乐部 (http://xodn.com/) Powered by Discuz! X3.2