Trans E
Translating Embeddings
基本概念
将集合里的关系和实体各嵌入(embedding)成 Trans E
的合法性是基于下述假设:
设关系
嵌入为 ,实体 嵌入为向量 。 对于实体
和关系 ,关系 成立当且仅当 在向量空间成立
流程
input:
训练集
loop:
-
//b 是集合大小 for each
//在这里 h’ 和 t’ 表示二者之一随机替换成其他实体 -
这样训练的参量规模是
SGD
上一节我们提到了
其中
其中
当然这里的加法和乘法(包括乘方)都是构成
Trans H
Translating Hyperplanes
基本概念
事实上, Trans E
的假设是建立在关系集合
倘若任意关系
Trans H
为了解决这个问题做出如下假设:
设关系
嵌入为法向量为 的 维超平面及其上的向量 ,实体 嵌入为向量 。 则对于实体
和关系 ,关系 成立当且仅当 恒成立。 其中:
如果说 Trans E
是把关系集合里的每一张图都嵌入成 Trans H
就是改为把这张图嵌入成
损失函数
其中
其中
这样训练的参量规模是
Trans R
Translating Relations
基本概念
Trans H
把每个关系的那张图嵌入到一个平面中,而 Trans R
则认为每个关系是将原空间进行一次线性变换,然后线性变换之后,关系两端的向量会各自聚成一堆。因此,它做出如下假设:
设关系
可被看做 上的某种线性变换 和变换后的向量空间中的向量 ,实体 嵌入为向量 。 则关系
成立当且仅当 在向量空间成立。
损失函数
损失函数基本同上。
同样地有评分函数
损失函数也同理。
CTrans R
所谓 Cluster-based TransR
,基于聚类的 Trans R
。
基本思路是对映射后的实体对的差值做聚类。
对于每个聚类
显著缺点
Trans R
在性能上存在一个明显的缺点:线性变换需要一个
Trans D
Translating Dynamic Mapping Matrix
基本概念
Trans D
认为,前面的几种模型是建立在反对称的关系上的。但事实上,关系未必总是反对称(甚至可能是对称的)。所以,在一些特定的样本中,前述模型就会出现问题。
一个自然的想法就是区分头实体和尾实体。
Trans D
于是尝试将每个实体各自嵌入到两个向量:它的位置,和它作为头/尾实体时的调整。
它作出如下假设:
设关系
嵌入为 上的位置向量 和投影向量 ,实体 嵌入为位置向量 和投影向量 。 则关系
成立当且仅当 在向量空间成立。 其中:
这样处理,除了可以拟合非对称的关系以外还有一个优点就是它显著降低了参量规模。因为这里的线性变换矩阵 Dynamic
!)生成的,所以参量规模降低到了
损失函数
估价函数是:
RotatE
Rotate Embedding
(大概)
基本概念
上述的模型都是将关系对映射到
RotatE
在
设关系
嵌入为 ,实体 嵌入为向量 。 关系
成立当且仅当 在向量空间成立。 其中
表示 Hadamard
积,而非作用在上的那个域的乘法(内积)。
那么有距离函数:
这里的范数是内积意义上的。(显然, Hadamard
积不能导出范数)
RotatE
相比与 Trans E
的一大优势是它良好地解决了对称关系的问题:如果
最优化方案
最优化的核心仍然是设计损失函数。 RotatE
采用了一种被称为「负采样」的损失函数设计方式:
其中 Sigmoid
函数,即
自对抗采样
设计权值函数
其中
这是因为作者认为不同的负样本在学习的时候能够提供不同的启发性。如果一个负样本的估值函数很正,说明它还没有被良好地和正样本区分开,那它就需要加上更多的权重;反之,它就已经被良好地区分开了,于是就不必特别考虑它的影响。这种方法可以有效提升训练效率。
PairRE
Paired Relation Embedding
基本概念
上述的模型常常遇到一个问题,就是无法同时优质拟合多对多、
PairRE
在 RotatE
的基础上做了一些改良。它结合了 Trans D
的思想,作出如下假设:
设关系
嵌入为 ,实体 嵌入为向量 。 关系
成立当且仅当 在向量空间成立。 其中
表示 Hadamard
积。
另外, PairRE
还做到了较好的拟合子关系:
若存在子关系对
这样就能推导出前者。证明是显然的。
PairRE
的另一个特点是区分了多对多、 Trans D
,它通过区分每个关系向量和头实体的相关与其和尾实体的相关,得到了j较好的拟合性。
中间有一些精妙的数学推导,详见论文。
最优化
估价函数:
同样是进行了负采样和自对抗采样。