网络链接预测能够获取网络中丢失链接的重要信息或进行网络的动态演变分析.现有的基于节点相似性的网络链接预测方法往往针对简单的一(多)阶邻居信息或特定类型的小型网络,设计较为复杂的计算方法,其扩展性和大规模网络中的可计算性都受到了严峻的挑战.文中基于深度学习在神经网络语言模型中应用的启发,提出了一个LsNet2Vec(Large-scale Network to Vector)模型.通过结合随机游走的网络数据集序列化方法,进行大规模的无监督机器学习,从而将网络中节点的结构特征信息映射到一个连续的、固定维度的实数向量.然后,使用学习到的节点结构特征向量,就可以迅速计算大规模网络中任意节点之间的相似度,以此来进行网络中的链接预测.通过在16个大规模真实数据集上和目前的多个基准的最优预测算法对比发现,LsNet2Vec模型所得到的预测总体效果是最优的:在保证了大规模网络中链接预测计算可行性的同时,于多个数据集上相对已有方法呈现出较大的AUC值提升,最高达8.9%.
非稀疏性是最小二乘支持向量机(Least squares support vector machine,LS-SVM)的主要不足,因此稀疏化是LS-SVM研究的重要内容.在目前LS-SVM稀疏化研究中,多数算法采用的是基于迭代选择的稀疏化策略,但是时间复杂度和稀疏化效果还不够理想.为了进一步改进LS-SVM稀疏化方法的性能,文中提出了一种基于全局代表点选择的快速LS-SVM稀疏化算法(Global-representation-based sparse least squares support vector machine,GRS-LSSVM).在综合考虑数据局部密度和全局离散度的基础上,给出了数据全局代表性指标来评估每个数据的全局代表性.利用该指标,在全部数据中,一次性地选择出其中最具有全局代表性的数据并构成稀疏化后的支持向量集,然后在此基础上求解决策超平面,是该算法的基本思路.该算法对LS-SVM的非迭代稀疏化研究进行了有益的探索.通过与传统的迭代稀疏化方法进行比较,实验表明GRS-LSSVM具有稀疏度高、稳定性好、计算复杂度低的优点.