链接分析推动页面体验模型发展的未来预测

Physica A 2020 | 链接预测综述(三)

第一部分，第二部分 AUROC定义为ROC曲线下的面积，ROC曲线由横轴FPR（1-TNR，1-Specificity）和纵轴TPR（Sensitivity）描绘，FPR表示预测正类中实际负类的比例，TPR表示预测正类中实际正类的比例。理想情况是TPR=1，FPR=0，因此ROC曲线越接近(0,1)点，预测效果越好。 AUPR是precision–recall curve下的面积，表示precision（所有预测为正类样本中预测正确的比例）与TPR（所有实际正类样本中预测正确的比例）之间的关系。在不平衡数据集的二分类问题中，AUPR值越高表示模型越好。平均精度是不同阈值下精度的平均值，计算时积分近似为精度之和乘以召回率的变化。实际计算中，使用不同阈值的集合。 Recall@k与TPR类似，只是考虑top-k项的召回率。在实际计算中，可以定义为所有排名在k内的正类样本占所有正类样本的比例。链接预测问题的变化：网络的复杂性，如加权网络、有向图；时态网络链路预测；二分网络链接预测；异质网络链接预测。时态网络链接预测：网络中的时间被视为第三维度，预测下一时刻节点间是否存在链接。方法包括非参数方法、矩阵和张量技术、基于潜在矩阵分解的模型。二分网络链接预测：大多数基于邻居的方法（如CN、AA）不适用于这些网络，但在一些研究中实现了这些方法。异质网络链接预测：方法通常用于同质网络，但在异质网络中进行链接预测需要考虑不同类型的节点和链接。链接预测的应用：网络重建、推荐系统、网络完成问题、垃圾邮件检测、社交网络隐私控制、识别缺失的参考文献、在链接预测中考虑用户影响。结论和未来方向：介绍几种链接预测方法，包括基于相似性的、概率模型的、基于降维的、基于熵的和基于聚类的。回顾了最近的一些方法，包括模糊模型和二分网络中的链接预测。实验在七个网络数据集上进行，评估在四个度量上，发现局部和准局部方法通常表现较好，全局方法表现一般。链接预测仍然是一个开放的研究问题，有待探讨的领域包括处理大规模网络、预测强度/权重随时间变化的缺失链接、处理不平衡的数据集以及离群值检测在链接预测中的应用。

nginx