[论文解读] 知识表示学习研究进展(研究综述)

论文简介

0.1 文章信息

论文题目:知识表示学习研究进展 Knowledge Representation Learning: A Review
发表级别:计算机研究与发展 ›› 2016, Vol. 53 ›› Issue (2): 247-260.
作者列表:刘知远,孙茂松,林衍凯,谢若冰
作者单位:清华大学计算机科学与技术系
简介页面:链接
下载地址:链接

0.2 摘要

人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系。在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的因扰。最近,以深度学习为代表的表示学习技术受到广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习。该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景。

0.3 关键信息

  1. 网络结构,使用节点和边的形式表示实体与关系;
  2. 数据稀疏的问题不易于表示(质疑);
  3. 表示学习的深度学习能够有效解决问题(什么 问题?);
  4. 介绍相关内容

0.4 主要问题

  • 知识库建设的核心问题
    从无(半)结构的互联网信息中获取有结构知识,自动融合构建知识库、服务知识推理等相关应用。知识表示是知识获取与应用的基础,因此知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。
  • RDF=Resource Description Framework,W3C制定的标准,基于三元组
  • 谷歌提出知识图谱

但是,基于三元组的表达方式存在两大问题:
0. 计算效率问题存在问题,移植性,扩展性,海量数据处理问题
2. 数据稀疏问题,导致长尾问题

1 表示学习

1.1 基本概念

  • 知识计算:使用 l e l_e le l r l_r lr表示实体和关系,使用余弦计算距离
  • One-hot编码(独热编码),每个词1个维度。缺点:无法反应词组间的关系
  • 表示学习:从学习训练中得到的低维向量是一种分布由表示,单维度无意义,组合才有意义,类似于人脑的神经元组织。虽然单维度无意义,但是组合起来可以表达主体的关系和层次。
  • 知识表示学习:面向知识库中实体和关系的表示学习,对知识推理、建立和应用有重要的意义。

1.2 经典应用

  • 相似度计算
  • 知识图谱补全
  • 其他,如关系抽取、自动问答、实体链接等任务

1.3 主要优势

  • 显著提升计算效率
  • 有效缓解数据稀疏问题
  • 实现异质信息融合

1.4 结论

优势明显、使用方便,值得广泛关注和研究。

2 表示学习的主要方法

知识库: G = { E , R , S } G=\{E,R,S\} G={ERS},其中 E = { e 1 , e 2 , . . . , e ∣ E ∣ } E=\{e_1, e_2, ..., e_{|E|}\} E={e1,e2,...,eE}, R = { r 1 , r 2 , . . . , r ∣ R ∣ } R=\{r_1, r_2, ..., r_{|R|}\} R={r1,r2,...,rR},而 S ⊂ E × R × E S\subset E \times R \times E SE×R×E,可以表示为 s = { h , r , t } s=\{h, r, t\} s={h,r,t}

2.1 距离模型 (Distance Model)

f r ( h , t ) = ∣ M r , l l h − M r , 2 l t ∣ L 1 f_r(h, t)=|M_{r, l}l_h-M_{r,2}l_t|_{L_1} fr(h,t)=Mr,llhMr,2ltL1

2.2 单层模型 (Single Layer Model)

f r ( h , t ) = u r T g ( M r , l l h − M r , 2 l t ) f_r(h, t)=u^T_rg(M_{r, l}l_h-M_{r,2}l_t) fr(h,t)=urTg(Mr,llhMr,2lt)

2.3 能量模型 (Semetics Maching Energy)

f r ( h , t ) = ( M 1 l h ⊗ M r , 2 ⋅ l t ) f_r(h, t)=(M_1l_h \otimes M_{r,2} \cdot l_t) fr(h,t)=(M1lhMr,2lt)

2.4 双线性模型 (Lanent Factor Model)

f r ( h , t ) = l h T M r l t f_r(h, t)=l_h^TM_rl_t fr(h,t)=lhTMrlt

2.5 张量神经网络模型 (Neural Tensor Network)

基本思想:使用双线性模型,代替传统神经网络中的线性变换。

2.6 矩阵分解模型

代表方法是RESACL方法,其基本思想与LFM类似,不同之处在于RESACL方法会优化张量中所有的位置,包括0;而LFM方法只会优化知识库中的三元组。

2.7 翻译模型和其他模型 (略)

3 知识表示学习的主要挑战与已有解决方案

代表:TranseE,模型简单,适用于大规范的知识图谱,但对于复杂模型时常捉襟见肘。

3.1 复杂关系模型

觉的TranseE的复杂模型的改进主要包括以下内容:

  • TransH模型
  • TransR/CTransR 模型
  • TransD模型
  • TranA模型
  • TranG模型
  • KG2E模型

3.2 多源信息融合

  • DKRL模型
  • 文本与知识库融合的知识表示学习
    Wang等人提出在表示学习中考虑文本数据,利用word2vec学习维基百科正文中的词表示,利用TransE学习知识库中的知识表示。同时,利用维基百科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示与知识库中的实体表示尽可能接近,从而实现文本与知识库融合的表示学习。Wang等人还将类似的想法用于融合实体描述信息。

3.3 关系路径建模

在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao等人曾提出Path-ConstraintRandomWalk,PathRankingAlgorithm等算法,利用两实体间的关系路径信息预测它们的关系,取得显著效果,说明关系路径蕴含着丰富的信息。
为了突破TransE等模型孤立学习每个三元组的局限性,Lin等人提出考虑关系路径的表示学习方法,以TransE作为扩展基础,提出Path-basedTransE(PTransE)模型。

4 知识表示学习未来研究方向展望

对于 TransE 等模型面临的挑战,也已经提出了很多改进方案。然而,知识表示学习距离真正实用还很远,本节将对知识表示学习的未来方向进行展望。

4.1 面向不同知识类型的知识表示学习

有工作将知识库的关系划分为2-2,2-N ,N-2和 N-N 四类,并面向复杂关系建模开展了大量研究工作.研究表明,面向不同类型的关系,需要设计专门的知识表示模型。

近期发表在Science等权威期刊的认知科学研究成果总结认为,人类知识包括以下4种结构:

  1. 树状关系,表示实体间的层次分类关系,如生物界的分类系统等;
  2. 二维网格关系,表示现实世界的空间信息,如地理位置信息等;
  3. 单维顺序关系,表示实体间的偏序关系,如政治家的左右倾谱系分布等;
  4. 有向网络关系,表示实体间的关联或因果关系,如疾病之间的传染关系等。

4.2 多源信息融合的知识表示学习

在多源信息融合的知识表示学习方面,有以下3个方面的工作需要开展:

  1. 融合知识库中实体和关系的其他信息
    知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等.有机融合这些信息,将显著提升知识表示学习的表示能力.
  2. 融合互联网文本信息
    互联网海量文本数据是知识库的重要知识来源.人们提出远程监督(distant supervision)、开放信息抽取(openinformation extraction)等技术,从开放文本中抽取知识.这个过程也自然而然地建立起了知识库和文本之间的 联系,如何充分利用这些联系融合互联网文本信息, 意义重大.值得一提的是,目前大部分工作主要关注 面向实体表示的融合.实际上,若干研究工作已经利用卷积神经网络(CNN)建立起了关系表示,这为面向关系表示的信息融合提供了技术基础,最终实现融合文本信息和知识库的知识表示.
  3. 融合多知识库信息
    人们利用不同的信息源构建了不同的知识库.如何对多知识库信息进行融合表示,对于建立统一的大规模知识库意义重大.融合多源知识库信息,主要涉及实体融合、关系融合与事实融合。

4.3 考虑复杂推理模式的知识表示学习

考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。

4.4 其他研究方向

  1. 面向大规模知识库的在线学习和快速学习
    大规模知识库稀疏性很强.初步实验表明,已有表示 学习模型在大规模知识库上效果堪忧,特别是对低频实体和关系的表示效果较差,而且知识库规模不断扩大,我们需要设计高效的在线学习方案.除了充 分融合多源信息降低稀疏性之外,我们还可以探索如何优化表示学习的样例顺序,借鉴 Curriculum Learning等算法思想,优先学习核心知识,然后学习外围知识,也许能够一定程度改善表示效果。

  2. 基于知识分布式表示的应用
    知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均 有广阔的应用空间.我们需要在若干重要任务上探索和验证知识表示学习的有效性.例如,关系抽取任务如果能够基于知识表示学习有效利用知识库信息,将能够极大提升抽取性能和覆盖面.再如,我们可以充分利用表示学习在信息融合上的优势,实现跨领域和跨语言的知识融合.此外,人脑强大的学习与推理能力,说明在低维语义空间中进行知识的学习与推理极具潜力,相关机理值得深人探索。

5 总结

本文是一篇非常好的表示学习的综述报告,不仅内容全面、关系清晰、分类合理、水平较高,而且对此领域的发展有一定的前瞻性和预见性,是本领域不可多得的一篇综述报告。

热门文章

暂无图片
编程学习 ·

那些年让我们目瞪口呆的bug

程序员一生与bug奋战,可谓是杀敌无数,见怪不怪了!在某知识社交平台中,一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读,可见程序员们对一个话题的敏感度有多高。 1、麻省理工“只能发500英里的邮件” …
暂无图片
编程学习 ·

redis的下载与安装

下载redis wget http://download.redis.io/releases/redis-5.0.0.tar.gz解压redis tar -zxvf redis-5.0.0.tar.gz编译 make安装 make install快链方便进入redis ln -s redis-5.0.0 redis
暂无图片
编程学习 ·

《大话数据结构》第三章学习笔记--线性表(一)

线性表的定义 线性表:零个或多个数据元素的有限序列。 线性表元素的个数n定义为线性表的长度。n为0时,为空表。 在比较复杂的线性表中,一个数据元素可以由若干个数据项组成。 线性表的存储结构 顺序存储结构 可以用C语言中的一维数组来…
暂无图片
编程学习 ·

对象的扩展

文章目录对象的扩展属性的简洁表示法属性名表达式方法的name属性属性的可枚举性和遍历可枚举性属性的遍历super关键字对象的扩展运算符解构赋值扩展运算符AggregateError错误对象对象的扩展 属性的简洁表示法 const foo bar; const baz {foo}; baz // {foo: "bar"…
暂无图片
编程学习 ·

让程序员最头疼的5种编程语言

世界上的编程语言,按照其应用领域,可以粗略地分成三类。 有的语言是多面手,在很多不同的领域都能派上用场。大家学过的编程语言很多都属于这一类,比如说 C,Java, Python。 有的语言专注于某一特定的领域&…
暂无图片
编程学习 ·

写论文注意事项

参考链接 给研究生修改了一篇论文后,该985博导几近崩溃…… 重点分析 摘要与结论几乎重合 这一条是我见过研究生论文中最常出现的事情,很多情况下,他们论文中摘要部分与结论部分重复率超过70%。对于摘要而言,首先要用一小句话引…
暂无图片
编程学习 ·

安卓 串口开发

上图: 上码: 在APP grable添加 // 串口 需要配合在项目build.gradle中的repositories添加 maven {url "https://jitpack.io" }implementation com.github.licheedev.Android-SerialPort-API:serialport:1.0.1implementation com.jakewhart…
暂无图片
编程学习 ·

2021-2027年中国铪市场调研与发展趋势分析报告

2021-2027年中国铪市场调研与发展趋势分析报告 本报告研究中国市场铪的生产、消费及进出口情况,重点关注在中国市场扮演重要角色的全球及本土铪生产商,呈现这些厂商在中国市场的铪销量、收入、价格、毛利率、市场份额等关键指标。此外,针对…
暂无图片
编程学习 ·

Aggressive cows题目翻译

描述&#xff1a; Farmer John has built a new long barn, with N (2 < N < 100,000) stalls.&#xff08;John农民已经新建了一个长畜棚带有N&#xff08;2<N<100000&#xff09;个牛棚&#xff09; The stalls are located along a straight line at positions…
暂无图片
编程学习 ·

剖析组建PMO的6个大坑︱PMO深度实践

随着事业环境因素的不断纷繁演进&#xff0c;项目时代正在悄悄来临。设立项目经理转岗、要求PMP等项目管理证书已是基操&#xff0c;越来越多的组织开始组建PMO团队&#xff0c;大有曾经公司纷纷建造中台的气质&#xff08;当然两者的本质并不相同&#xff0c;只是说明这个趋势…
暂无图片
编程学习 ·

Flowable入门系列文章118 - 进程实例 07

1、获取流程实例的变量 GET运行时/进程实例/ {processInstanceId} /变量/ {变量名} 表1.获取流程实例的变量 - URL参数 参数需要值描述processInstanceId是串将流程实例的id添加到变量中。变量名是串要获取的变量的名称。 表2.获取流程实例的变量 - 响应代码 响应码描述200指…
暂无图片
编程学习 ·

微信每天自动给女[男]朋友发早安和土味情话

微信通知&#xff0c;每天给女朋友发早安、情话、诗句、天气信息等~ 前言 之前逛GitHub的时候发现了一个自动签到的小工具&#xff0c;b站、掘金等都可以&#xff0c;我看了下源码发现也是很简洁&#xff0c;也尝试用了一下&#xff0c;配置也都很简单&#xff0c;主要是他有一…
暂无图片
编程学习 ·

C语言二分查找详解

二分查找是一种知名度很高的查找算法&#xff0c;在对有序数列进行查找时效率远高于传统的顺序查找。 下面这张动图对比了二者的效率差距。 二分查找的基本思想就是通过把目标数和当前数列的中间数进行比较&#xff0c;从而确定目标数是在中间数的左边还是右边&#xff0c;将查…
暂无图片
编程学习 ·

项目经理,你有什么优势吗?

大侠被一个问题问住了&#xff1a;你和别人比&#xff0c;你的优势是什么呢? 大侠听到这个问题后&#xff0c;脱口而出道&#xff1a;“项目管理能力和经验啊。” 听者抬头看了一下大侠&#xff0c;显然听者对大侠的这个回答不是很满意&#xff0c;但也没有继续追问。 大侠回家…
暂无图片
编程学习 ·

nginx的负载均衡和故障转移

#注&#xff1a;proxy_temp_path和proxy_cache_path指定的路径必须在同一分区 proxy_temp_path /data0/proxy_temp_dir; #设置Web缓存区名称为cache_one&#xff0c;内存缓存空间大小为200MB&#xff0c;1天没有被访问的内容自动清除&#xff0c;硬盘缓存空间大小为30GB。 pro…
暂无图片
编程学习 ·

业务逻辑漏洞

身份认证安全 绕过身份认证的几种方法 暴力破解 测试方法∶在没有验证码限制或者一次验证码可以多次使用的地方&#xff0c;可以分为以下几种情况︰ (1)爆破用户名。当输入的用户名不存在时&#xff0c;会显示请输入正确用户名&#xff0c;或者用户名不存在 (2)已知用户名。…