本文来自东南大学教授漆桂林在携程技术中心主办的深度学习Meetup中的演讲内容,介绍了知识图谱中的推理技术及其在高考机器人中的应用。
随着信息化、互联网化,如何在海量的信息中获取核心的知识体系、知识图谱,并基于知识图谱理清海量信息的关系及结构,显得越来越重要。 本文简明地讲述了知识图谱的概念,回顾了知识图谱的历史,研究了知识图谱中的推理技术及其在高考机器人中的应用,希望能做出辅助学生学习的智能机器人。 什么是知识图谱知识图谱是一种图数据模型组织的知识库,节点为实体或者概念,边为实体或者概念间各种关系。知识图谱为实现人工智能提供了常识知识和领域知识。 知识图谱的历史知识图谱来源于知识工程。知识工程的历史回顾,可以追溯到六十年代Semantic Nets。到了八十年代专家系统,但由于知识瓶颈问题,在90年代受到的关注越来越小。Yahoo前首席科学家Ronald J. Brachman研究的KL-One系统是为了把Semantic Nets形式化。 Semantic Nets重新红火是2000年左右,随着Semantic Web的提出,智能化的搜索——语义搜索被认为是下一代搜索引擎,而Semantic Nets是语义搜索的关键。从2010年开始,Google提出Knowledge Graph,使得知识工程受到了业界和学术界的广泛关注。 知识图谱的逻辑推理知识图谱的推理跟本体是相关的。什么是本体?形式化的,对于共享概念体系的明确而又详细的规范说明。本体提供的是一种共享词表。或者说,就是一种特殊类型的术语集。只有把概念形式化,机器和人才能互动和理解。 比如,心脏是一种肌肉组织,是血液循环系统的一部分。心脏和肌肉组织是一种上下位的关系,和循环系统是部分与整体的关系。 本体的定义,有点像数据库schema的定义,但更灵活。本体间的关系可以用类表示。比如独奏音乐艺术家与艺术家之间有上下位的关系。上下位关系有传递性。另外我们有不相交的关系,一种东西不能既是火车又是汽车。蕴含的关系可以通过推理得出。 另外一个比较重要的逻辑推理是基于规则的推理,比如说产生式规则的推理。 基于统计的推理结合统计推理,我们可以发现有些百科中的矛盾,大豆食心虫既是动物,又是植物。另外,与深度学习比较紧密的是表示学习(Representation Learning)。 表示学习的基本思想:用低维的向量空间将每个实体都表示到空间里面的某一个位置,从而可以利用空间中的距离来衡量实体之间的语义关系。E1,E2, … En代表所有实体,R1,R2, … Rn代表所有关系,故可以使用三维矩阵(张量)表示知识图谱。还有Path Ranking Algorithm,根据路径,预测人物之间的关系是否成立。 高考解题的应用以空间推理为例。对于目前的大部分试题的图片,现有的单一的空间推理模型(RCC、CSD、ICD)不足以表达足够的空间关系。比如,美国与加拿大之间既存在拓扑关系,也存在方位关系。需将多种的空间推理模型结合,得到新的空间关系表示和推理模型。新的模型的表示、推理能力?应强于原有单一模型,但仍有待调研、测试。 空间推理模型需要扩展。 - 扩展表示方法。引入距离模型和其他空间模型(如上下左右的表示)。
- 扩展表示对象。动态对象的表示,线、点线面关系的表示,模糊对象的表示。
比如说,我们要分析地理岩层。我们要了解事实:石灰岩属于沉积岩,页岩属于沉积岩,规则:沉积岩越往下形成年代越早,同层沉积岩形成年代一致。用来预测分析岩层属于什么岩。 最后强调,知识图谱中的本体和规则是相当重要的。 附件内容为:演讲PPT
|