视频嵌入优化与知识图谱关系的模型评估

“TransE”阅读笔记

《Translating Embeddings for Modeling Multi-relational Data》阅读笔记1. 动机问题背景:单一关系的知识图谱可通过矩阵分解实现实体向量表示,但多关系数据建模面临挑战。现有方法缺陷:模型复杂度与计算成本高,易过拟合(缺乏正则化)。非凸优化可能导致局部极小值,引发欠拟合。目标:设计简单模型,将实体和关系表示为向量,同时保持可扩展性。2. 贡献提出TransE模型:通过embedding空间中的平移操作建模关系,即“头实体+关系≈尾实体”。优势:模型简单、训练高效。可扩展至大规模数据库,引发Trans系列研究热潮。3. TransE模型核心思想:对于三元组 (h, l, t),优化目标为 t ≈ h + l(尾实体接近头实体与关系的向量和)。负样本构造:替换头实体或尾实体为随机实体(不可同时替换),生成负例三元组 (h', l, t')。损失函数:d:L1或L2距离。γ:边界超参数,控制正负样本间距。4. 模型训练步骤:随机初始化实体和关系向量,正则化关系向量。每轮训练重新正则化实体向量(Batch Norm)。随机采样正例,并为每条正例采样负例。使用Hinge Loss更新参数。5. 模型评估评估方法:替换头实体:将头实体替换为训练集所有实体,计算“伪头实体+关系-尾实体”的距离。替换尾实体:固定头实体,替换尾实体为训练集所有实体,计算距离。排序:对所有三元组距离排序,评估真实三元组排名。指标:Mean Rank:排名平均值(越小越好)。Hit@10:排名前10的比例(越大越好)。过滤机制:排除训练集中已存在的三元组,避免低估模型性能。6. 实验结果对比模型:SE:参数复杂,小数据集性能差。Unstructured:仅将相似实体聚集,预测时随机猜测。7. 关系类型分析分类:一对一、一对多、多对一、多对多。结果:多对一关系预测尾实体性能最佳,一对多关系预测头实体性能最佳。Unstructured模型仅在一对一关系中表现良好。SME模型在更多训练数据下性能优于TransE。8. 预测结果示例展示:通过头实体预测尾实体(斜体为正确预测)。9. 泛化能力测试方法:在FB15k数据集中选择40种关系,分割为两个数据集(均包含所有实体)。用第一个数据集训练,第二个数据集测试泛化能力。结果:TransE泛化效果最优。10. 总结优势:模型简单,易于扩展。训练高效,适用于大规模数据。缺陷:实体在embedding空间中可能竞争同一位置。不适合一对多或多对多关系。未考虑语义信息,后续模型(如TransH、TransR)对其改进。


nginx