第一部分,第二部分 AUROC定义为ROC曲线下的面积,ROC曲线由横轴FPR(1-TNR,1-Specificity)和纵轴TPR(Sensitivity)描绘,FPR表示预测正类中实际负类的比例,TPR表示预测正类中实际正类的比例。理想情况是TPR=1,FPR=0,因此ROC曲线越接近(0,1)点,预测效果越好。 AUPR是precision–recall curve下的面积,表示precision(所有预测为正类样本中预测正确的比例)与TPR(所有实际正类样本中预测正确的比例)之间的关系。在不平衡数据集的二分类问题中,AUPR值越高表示模型越好。 平均精度是不同阈值下精度的平均值,计算时积分近似为精度之和乘以召回率的变化。实际计算中,使用不同阈值的集合。 Recall@k与TPR类似,只是考虑top-k项的召回率。在实际计算中,可以定义为所有排名在k内的正类样本占所有正类样本的比例。 链接预测问题的变化:网络的复杂性,如加权网络、有向图;时态网络链路预测;二分网络链接预测;异质网络链接预测。 时态网络链接预测:网络中的时间被视为第三维度,预测下一时刻节点间是否存在链接。方法包括非参数方法、矩阵和张量技术、基于潜在矩阵分解的模型。 二分网络链接预测:大多数基于邻居的方法(如CN、AA)不适用于这些网络,但在一些研究中实现了这些方法。 异质网络链接预测:方法通常用于同质网络,但在异质网络中进行链接预测需要考虑不同类型的节点和链接。 链接预测的应用:网络重建、推荐系统、网络完成问题、垃圾邮件检测、社交网络隐私控制、识别缺失的参考文献、在链接预测中考虑用户影响。 结论和未来方向:介绍几种链接预测方法,包括基于相似性的、概率模型的、基于降维的、基于熵的和基于聚类的。回顾了最近的一些方法,包括模糊模型和二分网络中的链接预测。实验在七个网络数据集上进行,评估在四个度量上,发现局部和准局部方法通常表现较好,全局方法表现一般。链接预测仍然是一个开放的研究问题,有待探讨的领域包括处理大规模网络、预测强度/权重随时间变化的缺失链接、处理不平衡的数据集以及离群值检测在链接预测中的应用。



































