图片 12

笔者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际知名会议中实体关系推理与知识图谱补全的相关论文,供自然语言处理研究人员,尤其知识图谱领域的学者参考,如有错误理解之处请指出,不胜感激!(如需转载,请联系本人:jtianwen2014,并注明出处

笔者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际知名会议中实体关系推理与知识图谱补全的相关论文,供自然语言处理研究人员,尤其知识图谱领域的学者参考,如有错误理解之处请指出,不胜感激!(如需转载,请联系本人:jtianwen2014,并注明出处

EMNLP 2016

ISGIR 2016

A Position Encoding Convolutional Neural Network Based on Dependency Tree for Relation Classification

  • 作者:Yunlun Yang, Yunhai Tong, Shulei Ma, Zhi-Hong Deng
  • 机构:School of Electronics Engineering and Computer Science,
    Peking University

本文的任务为关系分类,即对于给定句子中的给定实体对进行关系分类。本文叙述,传统特征选择的方法严重依赖于特征的质量以及词语资源,为了达到最优往往需要耗时的人工选择特征子集。基于核函数的方法虽然不必选择特征,但仍需精心设计的核函数并具有较大的计算开销。最近,随着神经网络的兴起,深度学习所提供的端到端的方法被应用于很多经典的自然语言处理问题。RNN和CNN已经被证明对关系分类具有极大帮助。

然而,一些研究工作表明传统的特征对于关系分类的神经网络方法仍有提高作用,可以提供更多的信息。一个简单而可行的方法是将词语级的特征和神经网络获取的特征简单组合(一般是连接起来),组合后的表示输入到分类器。另一种更加复杂的方法是根据句子的句法依存树调整神经网络的结构,取得了较好的效果。

本文认为,句法依存树在关系分类的任务上是很有价值的。本文发现实体对间的依存路径对关系分类更有价值,相比于整体句子的依存路径,由于其依存路径的距离往往小于句子的依存路径距离,剪枝后的实体间依存路径减少了很多噪声信息。为了更好的利用句法依存所提供的语言学知识,本文提出了基于句法依存树和的位置编码卷积神经网络方法PECNN。方法的过程图如下:

图片 1 

每个词的表示由两部分构成:词向量、该词的依存树位置特征。位置特征的获取主要思想是将离散的位置映射到实数向量,它和词向量相似,只不过是将词替换为离散的距离。本文提出了两种方法来定义依存树中的位置特征TPF1、TPF2。TPF1中距离定义为当前词到目标实体的最短路径中依存弧的个数,映射方式和PF相同,即不同的距离随机初始化一个固定维度的向量,训练的过程中学习。一个词到实体的最短路径可以划分为两个子路径:被最低祖先节点分割,TPF2则将距离用二元组表示,分别代表两个子路径的长度。下图是各个词语到实体Convulsions的TPF1与TPF2:

图片 2 

典型的CNN的一个卷积窗口每次获取当前词的邻近上下文词语作为输入,在本文中为了充分利用树结构信息,本文将当前词的父节点和子节点作为作为其邻近上下文输入到卷积窗口,相应的本文对卷积核也做了修改,使用了两种卷积核:Kernel-1、Kernel-2,具体定义见论文。其中Kernal-1旨在从依存树中多层次抽取特征,而Kernel-2专注于挖掘共享父节点的词之间的语义信息。两个核函数的大小均取3。最后将Kernel-1、Kernel-2分别池化并拼接在一起作为CNN输出。

笔者:本文利用卷积神经网络对实体关系进行分类,创新性地将依存树作为输入,将词在树中的位置信息嵌入式表示并拼接到词向量中共同学习,同时,本文对CNN面向树结构设计了独特的卷积核。本文提出的方法在实体关系分类任务上,相比于未使用位置信息的CNN和LSTM取得了进一步提高。在实验中本文也将POS等特征融入PECNN,也取得了较好的结果。但文中似乎未探讨卷积核设计对结果的影响,面向树结构的卷积核的设计是否是本文独立提出的?读者可参看文中参考文献探寻一下。

Hierarchical Random Walk Inference in Knowledge Graphs

  • 作者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
  • 机构:School of Information and Software Engineering, University
    of Electronic Science and Technology of China

——–论文掠影——–

本文面向的任务是基于知识图谱的关系推理。本文通过对比考察PRA方法和TransE方法在关系推理上的执行效果并分析原因,在PRA基础上提出层次的随机游走算法HiRi进行实体关系推理。

本文首先叙述了基于知识图谱的关系推理的相关工作,大体分为三种方法:首先是统计关系学习方法(SRL),如马尔科夫逻辑网络、贝叶斯网络,但这类方发需要设计相应的规则,因此没有很好的扩展性和泛化性;嵌入式表示的方法,旨在将实体和关系映射为空间中的向量,通过空间中向量的运算来进行推理(如TransE),该方法取得了较好的准确率,但分布式表示的解释性不强,另外,较难实现并行计算;基于关系路径特征的随机游走模型,该方法可以进行并行计算,具有较好的执行效率,但准确率与召回率相比嵌入式表示学习的方法存在劣势。本文的想法是:是否可以设计算法同时实现随机游走模型的执行效率以及保留嵌入式表示学习方法的准确率?

——–方法介绍——–

本文对TransE方法(嵌入式表示学习的代表)和PRA方法(随机游走模型的代表)进行对比,在一对多、一对一、多对多、多对一这四类关系上进行对比分析:

图片 3

对比发现:在1:M关系上,PRA远不如TransE;但在M:1关系上,两者很接近。有此现象,本文的第一个假设认为可以将知识图谱看做无向图,以此来规避1:M关系上的弱势。

另外,PRA方法在M:M关系上也只达到了TrasnE方法效果的一半,本文认为这说明了PRA在多对多关系上抽取的路径特征并没有充分地利用多对多关系产生的簇中的连接信息(文中有举例说明这一点)。相比而言,嵌入式学习的方法由于将知识图谱全局信息编码到向量空间里,所以可以充分利用到这种信息。

在利用多对多推理关系时,经常会用到关系的反向,即从尾实体到头实体的方向,这种推离的方法可以使用odd-hop随机游走模型来建模,基于此本文的第二个假设是:具有拓扑结构的关系明确的簇可能会涵盖对推理很有帮助的信息,那么,基于关系学习算法的随机游走可以增强推理能力。 

本文提出了一种层次化推理的架构,共分为三个部分:全局推理、局部推理、推理结果融合,结构框图如下:

图片 4

全局推理是利用PRA算法进行推理,以得到三元组成立的概率\(f(h,r_i,t)\);局部推理时在特定关系的子图(簇)上计算一个3跳的概率矩阵,以得到存在可能该关系的三元组概率\(g(h,r_i,t)\),由于是在一个簇上进行的,这是一个局部的推理。融合的过程是利用一个线性模型对两部分的概率融合,以得到最终的概率。

笔者:本文通过分析PRA与TransE的在不同类型关系上的差距,提出了两个假设,并在此基础上提出层次化的推理方法HiRi,即在全局和局部分别进行关系推理,最终融合在一起获得推理结果。本文在第二个假设的提出上没有给出太多明确的解释,所举的例子和该假设的提出在递进关系上有些牵强,笔者未理清思路。另外,3跳的由来是否来自于“关系-关系反向-关系”路径,即3跳回到原关系?对于假设一,将关系看做无向的,会带来哪些不良后果?前人是否有这方面的探讨?

Jointly Embedding Knowledge Graphs and Logical Rules

  • 作者:Shu Guo, Quan Wang, Lihong Wang§, Bin Wang, Li Guo
  • 机构:Institute of Information Engineering, Chinese Academy of
    Sciences

本文的任务为知识图谱表示学习,本文提出逻辑规则包含丰富的背景信息,但始终没有很好的在知识图谱表示学习的任务上被研究。本文提出KALE的方法,将知识图谱与逻辑规则进行联合嵌入表示学习。

之前有学者同时利用知识表示方法和逻辑规则,但二者是分开建模的,这也使得并未得到更好的嵌入式表示。Rocktaschel
et al.
(2015)
提出联合模型将一阶逻辑融入嵌入式表示,但这项工作专注于关系分类,对实体对进行嵌入表示仅创建一个向量表示,而不是实体拥有各自的表示。

KALE方法可分为三个部分:三元组建模、逻辑规则建模,以及联合学习。一个整体的方法框图如下图所示:

图片 5 

对于三元组建模部分使用简单的翻译模型(TransE衍生)完成,具体的打分函数如下:

\[I(e_i, r_k, e_j)=1-\frac {1}{s\sqrt
{d}}||\mathbf{e}_i+\mathbf{r}_k-\mathbf{e}_j||_1\]

对于逻辑规则建模部分,本文使用t-norm模糊逻辑(t-norm fuzzy
logics),本文主要考虑两种类型的逻辑:第一类是:\(\forall x,y: (x,r_s,y)\Rightarrow
(x,r_t,y)\),给定\(f\triangleq
(e_m,r_s,e_n)\Rightarrow
(e_m,r_t,e_n)\),置信度的计算如下:

\[I(f)=I(e_m,r_s,e_n)\cdot
I(e_m,r_t,e_n)-I(e_m,r_s,e_n)+1\]

其中,\(I(\cdot ,\cdot
,\cdot)\)是三元组建模时的置信度函数。

第二类是:\(\forall x,y,z:
(x,r_{s1},y)\land (y,r_{s2},z)\Rightarrow
(x,r_t,z)\),给定\(f\triangleq
(e_l,r_{s1},e_m)\land (e_m,r_{s2},e_n)\Rightarrow
(e_l,r_t,e_n)\),置信度的计算如下:

\[I(f)=I(e_l,r_{s1},e_m)\cdot
I(e_m,r_{s2},e_n)\cdot I(e_l,r_t,e_n)-I(e_l,r_{s1},e_m)\cdot
I(e_m,r_{s2},e_n)+1\]

联合学习的过程同样是时整理三元组的置信度远大于负例三元组的置信度。

值得注意的是,虽然规则只有两种,但为了应用于实际必须找到规则的关系实例,为了缓解人工的压力,本文使用了半自动的方法构造规则关系实例。其方法是,首先利用TransE学习到实体和关系的表示,为可能存在这两个逻辑规则的实体关系计算置信度,然后进行排序,进而选择符合逻辑规则的实体关系实例。部分实例如下:

图片 6 

笔者:本文提出将逻辑规则融入知识图谱嵌入式表示学习的方法,并且逻辑规则和三元组的学习是联合进行的。方法提升的瓶颈似乎在逻辑规则的选择与实例的构造上,本文使用了本自动的方法构建,虽然这一部分并非本文重点,但确实该方法是够有效可以应用于大规模知识图谱的关键,本文对FB15K构建了47个规则实例,但对于大规模知识图谱这些规则还远远不够,这种规则的方法存在移植性的问题,是否可以考虑使用随机游走获取此类逻辑规则,类似PRA中使用的方法。另外,将关系路径融入表示学习的方法和本文的方法较为类似,实质上都是利用关系路径去推理关系。

IJCAI 2016

Mining Inference Formulas by Goal-Directed Random Walks

  • 作者:Zhuoyu Wei, Jun Zhao and Kang Liu
  • 作者:University of Chinese Academy of Sciences

本文的任务为面向知识图谱的实体关系推理,即利用知识图谱中已有的关系推理新的关系事实。推理规则对于基于知识图谱的关系推理有着显著的作用,而人工构造大量的推理规则是不现实的。目前基于数据驱动的自动挖掘推理规则的方法中,随机游走的方法被认为最适用于知识图谱。然而,在知识图谱中无目的的单纯随机游走挖掘有价值的推理规则的效率较低,甚至会引入误导的推理规则。尽管一些学者提出使用启发式规则指导随机游走,但由于推理规则的多样性,这种方法仍无法取得较好的效果。

针对以上现状,本文提出一种目标引导的推理规则挖掘算法:在随机游走的每一步使用明确的推理目标作为方向。具体地,为了达到目标引导的机制,在每一步随机游走的过程中,算法根据最终目标动态地估计走向各个邻居的潜在可能性,根据潜在可能性分配游走到各个邻居的概率。比如,当推理“一个人的语言”时,算法更倾向走“国籍”边而非“性别”边。

本文首先回顾了基本的用于推理规则挖掘的随机游走算法,其中也提到早期基于枚举的(枚举给定满足关系的实体对之间的所有路径)根据频率计算置信度的推理规则挖掘算法。随机游走算法随机地(概率均等,和出度有关)选择下一跳到达的邻居,而非遍历所有邻居。由此可见,这种随机游走的算法是独立用目标的。而且,由于随机性,随机游走无法保证高效低挖掘到目标实体对的路径,甚至引入噪声。为了缓解这一问题,PRA引入了启发式的规则:对概率矩阵进行修改,是的邻居的选择并不均等,而是依据到达目标实体的可能性。

为了实现目标引导的随机游走,本文对给定目标(\(\rho=R(H,T)\))的情况下,对实体\(i\)到\(j\)的连边g(关系\(r\))被选择的概率定义为:

\[ P_{r_{i,j}}= \begin{cases} \frac
{\Phi (r(i,j),\rho)}{\sum_{k\in Adj(i)}\Phi (r(i,j),\rho)},
&\mbox{}j\in Adj(i)\\ 0, &\mbox{}j\notin Adj(i) \end{cases}
\]

其中,\(\Phi(r(i,j),\rho)\)是在给定目标\(\rho\)情况下,对实体\(i\)到\(j\)的连边被选择的可能性测量。路径的出发点为\(H\),最终要到达\(T\),游走的过程中递归定义已走路径的似然为:\(P_{pHt}=P_{pHs}\cdot
P_{r_st}\)。似然函数定义为:

\[\rm{max}
P_{\mathbb{P}}=\prod_{pHt\in
\mathbb{P}}P_{pHt}^{a}(1-P_{pHt})^{b+c}\]

其中\(\mathbb{P}\)是随机游走获得的路径集合,\(a,b,c\)分别对应三种情况,a)\(t=T\)且产生正确的推理规则;a)\(t\not=T\);c)\(t=T\)且产生噪声推理规则;\(a,b,c\)都是0-1值,且每次有且只有一个为1。将最大化转为最小化\(L_{rw}=-\rm{log}
P_{\mathbb{P}}\),本文中又将该目标函数划分为两部分来计算:\(L_{rw}=L_{rw}^t+\lambda
L_{rw}^{inf}\)。对于一个明确的路径\(p\),\(L_{rw}\)可以写为:

\[L_{rw}(p)=-y\rm{log}
P_{p}-(1-y)\rm{log} (1-P_{p})\]

\(\Phi(r(i,j),\rho)\)的计算需要融入知识图谱全局的信息,为了减少计算量,本文引入知识图谱的嵌入表示来计算\(\Phi\):

\[\Phi(r(i,j),\rho)=\Psi(E_{r(i,j)},E_{R(H,T)})\]

其中,\(\Psi(E_{r(i,j)},E_{R(H,T)})=\sigma(E_{r(i,j)}\cdot
E_{R(H,T)})\),\(E_{r(i,j)}=[E_r,
E_j]\),\(E_{R(H,T)}=[E_R,
E_T]\),\(E_r,E_j,E_R,E_T\)代表关系和实体的嵌入式表示。

训练推理模型的算法如下:

图片 7

最终的推理是利用打分函数,对规定实体对的不同关系进行打分:

\[\mathcal{X}(\rho)=\sum_{f\in
F_{\rho}}\delta(f)\]

其中,\(F_{\rho}\)是随机游走为关系找到的推理规则集合,\(\delta(f)=w_f\cdot
n_f\)。最后本文应用逻辑斯谛回归来对实体关系概率进行计算:

\[P(\rho =
y|\mathcal{X})=\mathcal{F}(\mathcal{X})^y(1-\mathcal{F}(\mathcal{X}))^{1-y}\]

\[\mathcal{F}(\mathcal{X})=\frac{1}{1+e^{-x}}\]

笔者:对于随机游走的无目标指导从而导致推理规则挖掘效率低并引入噪声的问题,本文在随机游走的每一步引入目标的指导,即根据路径对目标实现的可能性计算游走到各个邻居的概率,而不是随机选择。

From One Point to A Manifold: Knowledge Graph Embedding For Precise Link Prediction

  • 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
  • 机构:Dept. of Computer Science and Technology, Tsinghua
    University

——–论文掠影——–

本文提出:目前已有的知识表示学习方法无法实现精确链接预测,本文认为有两个原因导致了这一现象的出现:ill-posed
algebraic problem
adopting an overstrict geometric form

其中,ill-posed algebraic
problem指的是:一个方程组中的方程式个数远大于变量个数。本文以翻译模型为代表叙述这一问题。翻译的目的是,对知识库的三元组的嵌入式表示满足\(\boldsymbol {\rm
{h_r+r=t_r}}\),如果三元组的数量为\(T\),嵌入式表示的维度为\(d\),那么一共有\(T*d\)个方程式,而所需要学习的变量一共有\((E+R)*d\),其中\(E,R\)表示实体和关系类型的数量。由于三元组的数量远大于实体和关系类型的数量,那么这种翻译模型存在严重的ill-posed
algebraic problem问题。

对于一个ill-posed
algebraic系统,所求得的解经常是不精确且不稳定的
,这也正是以往方法无法进行精确链接预测的原因之一。为此,本文提出一个基于流形(manifold)的原则,用\(\mathcal{M}(\boldsymbol {\rm
{h,r,t}})=D_r^2\)用来代替\(\boldsymbol {\rm
{h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。

另外,对于TransE的方法,对于给定的头实体和关系,应用于\(\boldsymbol {\rm
{h+r=t}}\),所得到的尾实体几乎是一个点,这对于多对多关系而言显然是不正确的,这是一种overstrict
geometric
form。前人的一些方法如TransH、TransR将实体和关系映射到一些与关系相关的子空间中来缓解这一问题,然而,这种问题在子空间中仍然存在。这种过于严苛的形式或导致引入大量的噪声元素,在链接预测的过程中无法准确预测。

如下图所示,越靠近圆心组成正确三元组的可能性越大,蓝色为正确的答案,红色为噪声,其中TransE的方法无法很好地区分,而本文提出的ManifoldE可以很好的区分噪声数据。

图片 8

——–方法介绍——–

本文提出用\(\mathcal{M}(\boldsymbol {\rm
{h,r,t}})=D_r^2\)用来代替\(\boldsymbol {\rm
{h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。打分函数定义为:

\[f_r(h,t)=||\mathcal{M}(h,r,t)-D_r^2||^2\]

对于\(\mathcal{M}\)的定义,其中一种以球体为流形。即对于给定头实体和关系类型,尾实体在向量空间中分布在以\(\boldsymbol {\rm
{h+r}}\)为球心的球面上,此时:

\[\mathcal{M}(h,r,t)=||\boldsymbol {\rm
{h+r-t}}||_2^2\]

这里的向量可以应用Reproducing Kernel Hilbert Space
(RKHS)映射到Hilbert空间,以更高效地表征流形。

图片 9

考虑到球体不易相交,而这可能导致一些实体的损失,本文叙述可以以超平面为流形。即对于给定头实体和关系类型,尾实体位于以\((\boldsymbol {\rm {h+r_{head}}})^{\rm
{T}}\)为方向、偏移量与\(D_r^2\)相关的超平面上。在空间中,只要两个法向量不平行,这两个超平面就会有相交。流形函数定义如下:

\[\mathcal{M}(h,r,t)=(\boldsymbol {\rm
{h+r_{head}}})^{\rm {T}}(\boldsymbol {\rm {t+r_{tail}}})\]

本文叙述为了增加给定头实体和关系推理出精确的尾实体数量,对向量绝对值化:

\[\mathcal{M}(h,r,t)=|\boldsymbol {\rm
{h+r_{head}}}|^{\rm {T}}|\boldsymbol {\rm {t+r_{tail}}}|\]

其中,\(|\boldsymbol {\rm
{w}}|=(|w_1|,|w_2|,|w_3|,…,|w_n|)\)。

对于以往方法存在的ill-posed问题,本文的方法对其较好地解决。以球形为例,本文对于每个三元组只对应一个等式:\(\sum_{i=1}^{d}(h_i+r_i-t_i)^2=D_r^2\),所以如果满足\(d\geq \frac {\#Equation}{E+R}=\frac
{T}{E+R}\)。要满足这一条件只需适当增加向量的维度,从而较好的实现精确预测。

训练的过程是增加正例的分数,而减小负例的分数,目标函数如下:

\[\mathcal{L}=\sum_{(h,r,t)\in
\Delta}\sum_{(h’,r’,t’)\in \Delta
‘}[f_r'(h’,t’)-f_r(h,t)+\gamma]_+\]

实验结果显示该方法较好的实现了精确链接预测(hit@1):

图片 10

笔者:本文提出之前的表示学习无法较好的实现精确链接预测,并提出造成该问题的两点原因:ill-posed
algebraic problem
adopting an overstrict geometric
form
,并针对这两个点问题切中要害提出基于流形的表示学习方法,实验结果显示该方法较好的实现了精确链接预测。

Lifted Rule Injection for Relation Embeddings

  • 作者:Thomas Demeester, Tim Rocktäschel and Sebastian Riedel
  • 机构:Ghent University – iMinds
  • 机构:University College London

本文提出了一种将规则注入到嵌入式表示中,用于关系推理的方法。本文叙述,嵌入式的表示方法可以从大规模知识图谱中学习到鲁棒性较强的表示,但却经常缺乏常识的指导。将二者融合起来的方法,已经取得了较好的效果,其常识经常以规则的形式出现。但在大规模知识图谱中,由于一些规则并不是独立于实体元组的,所以这些规则所能覆盖的实例仅占一小部分,如:\(\forall x: \rm{isMan}(x)\Rightarrow
\rm{isMortal}(x)\)。

本文提出将隐式的规则融入到实体和关系的分布式表示中。本文首先回顾了Riedel
et al.
(2013)的工作
,在该工作中,作者用两个向量\(\boldsymbol{r,t}\)来分别表征关系和实体元组(头尾实体对),优化的目标是:\(\boldsymbol{r_p^{\rm{T}}t_p\leq
r_q^{\rm{T}}t_q}\),其中\(p\)代表负例的标识。并以此优化目标定义相应的损失函数:

\[\mathcal{L}_R=\sum_{(r,t_q)\in
\mathcal{O},t_p\in \mathcal{T},(r,t_p)\notin
\mathcal{O}}l_R(\boldsymbol{r^\rm{T}[t_p-t_q]})\]

为了将如:\(\forall t\in \mathcal(T):
(r_p,t)\Rightarrow
(r_q,t)\)的规则融入分布式表示,本文模仿上述方法,可以将上述规则转化为:

\[\forall t\in
\mathcal{T}:\boldsymbol{r_p^{\rm{T}}t_p\leq
r_q^{\rm{T}}t_q}\]

也就是左侧元组分数越高,右侧元组分数必然更高,从而达到左侧元组成立,右侧一定成立的推理原则。同时优化损失函数:

\[\mathcal{L}_R=\sum_{\forall t \in
\mathcal{T}}l_R(\boldsymbol{[t_p-t_q]^\rm{T}\tilde
t})\]

其中,\(\boldsymbol{\tilde
t}:=t/{||t||_1}\)。

为了减少计算花销,同时到达独立于实体元组的目的,本文对目标损失函数做了如下修改:

\[\mathcal{L}_I=\sum_{\forall t \in
\mathcal{T}}l_I(\sum_{i=1}^{k}\tilde
t_i\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\]

进一步有:

\[\mathcal{L}_I\leq
\sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\sum_{\forall
t \in \mathcal{T}}\tilde t_i\]

令:

\[\mathcal{L}_I^U:=
\sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\]

通过最小化损失函数\(\mathcal{L}_I^U\),可以将隐式规则\((r_p,t)\Rightarrow
(r_q,t)\)融入到表示中。其他细节请参看原文,这里不做赘述。

Text-enhanced Representation Learning for Knowledge Graph

  • 作者:Zhigang Wang and Juanzi Li
  • 机构:Tsinghua University

本文面向知识图谱的表示学习任务,提出利用外部文本中的上下问信息辅助知识图谱的表示学习。

本文叙述:TransE、TransH、TransR等方法无法很好的解决非一对一关系,而且受限于知识图谱的数据稀疏问题,基于此本文提出利用外部文本中的上下问信息辅助知识图谱的表示学习。类似距离监督,本文首先将实体回标到文本语料中;以此获取到实体词与其他重要单词的共现网络,该网络可以看做联系知识图谱与文本信息的纽带;基于此网络,定义实体与关系的文本上下文,并将其融入到知识图谱中;最后利用翻译模型对实体与关系的表示进行学习。

下图是一个简单的图示:

图片 11

Representation Learning of Knowledge Graphs with Hierarchical Types

  • 作者:Ruobing Xie, Zhiyuan Liu, Maosong Sun
  • 机构:Tsinghua University

本文面向知识图谱的表示学习任务,提出融入实体类型信息辅助知识图谱的表示学习。

本文叙述:目前的大多数方法专注于利用知识图谱中三元组结构的表示学习,而忽略了融入实体类型的信息。对于实体而言,对于不同的类型含义应该具有不同的表示。本文从Freebase中获取实体的类型信息,并将其层次化表示,并设计了两种编码方式,对于不同的关系通过参数调整获得对应的实体表示。

Knowledge Representation Learning with Entities, Attributes and Relations

  • 作者:Yankai Lin, Zhiyuan Liu, Maosong Sun
  • 机构:Tsinghua University

本文面向知识图谱的表示学习任务,提出利用实体、属性、关系三个元素来进行表示学习。

本文提出对属性和关系加以区分,并在表示学习的过程中区别对待,本文首先提出属性与关系的区别,本文叙述:属性的值一般是抽象的概念,如性别与职业等;而且通过统计发现,属性往往是多对一的,而且对于特定的属性,其取值大多来源于一个小集合,如性别。对关系与属性采用不同的约束方式进行独立表示学习,同时提出属性之间的更强的约束关系。本文想法新颖,很值得借鉴。

图片 12

admin

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注