国家高技术研究发展计划(2009AA01Z424) 作品数:24 被引量:74 H指数:4 相关作者: 蔡皖东 丁要军 丁军平 孔劼 赵煜 更多>> 相关机构: 西北工业大学 咸阳师范学院 北京邮电大学 更多>> 发文基金: 国家高技术研究发展计划 西北工业大学基础研究基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于SVM的HTTP隧道检测技术研究 被引量:2 2011年 提出一种基于支持向量机(SVM)的HTTP隧道检测算法,该算法采用SVM提取网络流特征字段,根据特征字段生成训练数据,从而建立HTTP隧道分类检测模型,并结合知名地址匹配和单向流筛选等策略检测HTTP隧道流。与相关算法的对比实验表明,该算法不依赖样本空间的分布,能准确检测HTTP隧道流,具有较好的稳定性。 饶孟良 蔡皖东 丁要军关键词:网络流 支持向量机 基于互信息选择聚类集成的网络流量分类方法 被引量:1 2013年 针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。 丁要军 蔡皖东关键词:聚类集成 K均值 互信息 一种面向文件片段选择策略的对等网络污染方法 2012年 为了提高对等网络(P2P)文件共享过程的控制效果,提出了一种面向P2P文件共享系统中文件片段选择策略的P2P污染方法,并通过数学建模对污染效果进行了分析.该方法利用P2P文件共享系统中最少优先的文件片段选择策略,通过干扰文件片段的副本数达到控制文件传播的目的.实验结果表明,污染是否成功由初始资源提供节点退出P2P文件共享系统的概率和系统内污染节点的数量相互作用来决定,退出率和污染节点数量越高,文件片段污染越容易成功.当污染失效时,节点完成整个文件下载所用时间近似服从Frechet分布.当污染成功时,该方法可以在污染者不发送文件数据的情况下,使整个文件共享系统中每个资源请求节点都无法完成文件下载,因此具有污染效果好、对网络与计算资源要求低的优点. 孔劼 蔡皖东 丁军平关键词:对等网络 污染 面向对等网络SEInR传播模型的理论分析 2012年 针对现有传播动力学模型不能准确描述对等(P2P)网络文件传播过程中的问题,对现有SEIR模型进行了改进,并为此建立了SEInR传播动力学模型.根据SEInR模型的动力学方程组建立了基本再生数的计算公式,用来研究传播模型的无病平衡点和有病平衡点,同时对平衡点的存在性和稳定性进行了详细的理论分析和数学证明.通过对模型中的各种参数变化的仿真分析表明,所提模型能够更准确地模拟P2P文件的传播过程,模型参数能够对P2P文件传播过程中的影响因素进行准确的描述. 丁军平 蔡皖东关键词:基本再生数 采用两阶段策略模型(KTSVM)的P2P流量识别方法 被引量:8 2012年 针对识别加密P2P网络流量比较困难的问题,提出一种基于K均值和直推式支持向量机(TSVM)的半监督学习模型———两阶段策略模型(KTSVM,k-means based transductive supportvector machine),以提高P2P流量的识别精度.该模型首先使用K均值半监督聚类算法计算训练集中正例样本的数目,然后根据正例样本的数目来训练TSVM分类模型,提高了TSVM模型的稳定性和准确性.该模型的优势是可以使用未标注样本和标注样本共同训练分类模型,非常适合于识别标注比较困难的P2P流量.实验结果表明,在标注样本较少的情况下,该模型的识别精度和稳定性均优于TSVM模型和SVM模型. 丁要军 蔡皖东关键词:直推式支持向量机 半监督学习 互联网 面向BT的特定信息传播监测系统的实现 被引量:2 2010年 大多数BT流量识别是一种粗粒度的识别方法,为提高BT流量的识别效率,提出一种面向BT的特定信息传播的细粒度监测方法。根据监测的目标文件,按BT协议的格式提取文件特征,建立样本特征库。利用客户端之间的数据传输的特征字串来识别传输的BT文件,并提取特征信息,再与样本特征库进行匹配判断,以达到对特定信息传播的监测。实验结果表明,该方法可以对特定信息进行识别,提高识别的准确性。 胡润东 蔡皖东 丁军平关键词:BT协议 一种网络信息监管系统的设计与实现 被引量:3 2010年 基于Linux的Netfilter框架,根据特定的策略实现对网络数据的捕获或者封堵.系统主要由两部分组成:一个可加载的内核模块和一个用户空间的应用程序.分别采用netlink和内存映射技术实现核心态和用户态之间的命令传递和数据交互.可以利用该系统实现基于内容的网络过滤、深度数据包检测、或者采用特定模式匹配算法的入侵检测系统.最后,以封堵BitTorrent流量为例对系统进行测试,并取得了较好的实验结果. 蔡俊朝 蔡皖东 胡润东关键词:网络监管 NETFILTER 可加载内核模块 内存映射 基于混合模型的文本主题-情感分析方法 被引量:4 2010年 提出了一种基于混合模型的文本主题-情感分析方法.将训练集中的文本分别标记情感倾向和主题类别,根据不同情感和主题的语言表达方式,分别估计出情感和主题语言模型.通过计算待处理的测试文本语言模型与这两类模型之间的距离,评估测试文本与模型之间的相似性,最终确定文本的主题和情感倾向.模型的参数选用了bigram特征,参数估计采用了最大似然估计和平滑技术相结合的策略.这种模型化方法具有通用性,可以应用到不同类型的数据集中.实验表明,与支持向量机方法相比,本文方法提取主题和分析情感的准确率更高,鲁棒性更强. 樊娜 蔡皖东 赵煜关键词:混合模型 情感分析 主题提取 KL距离 基于SVM主动学习算法的元信息获取研究 针对在BitTorrent主动监测模型中所采取的爬虫技术,在爬取种子文件信息时,如果不对网页和种子文件的链接地址进行区分,而采取统一获取技术,会在效率和算法上遇到很大的困难。本论文根据此需求对传统的SVM分类算法进行改善... 丁军平 蔡皖东关键词:最小二乘支持向量机 爬虫 元信息 文献传递 全源NT技术的接入网链路丢包率推断 被引量:1 2011年 针对接入网链路丢包率具有非对称性,单源和多源的NT技术只能推断单向链路性能的问题,提出全源NT的测量模式,研究了基于全源NT的链路丢包率估计技术.提出了将全源网络结构转化为可辨识网络结构的方法,并给出采用EM算法和MCMC算法的链路丢包率估计方法.仿真实验表明该推断方法是有效的. 段琪 蔡皖东 田广利关键词:NT 链路丢包率 EM算法