戴远飞
- 作品数:11 被引量:40H指数:2
- 供职机构:福州大学更多>>
- 发文基金:国家自然科学基金厦门市科技计划项目福建省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于网页聚类的正文信息提取方法被引量:6
- 2018年
- 精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同内容模板生成的.因此本文提出一种基于网页聚类的正文信息提取的方法,该方法主要有2个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文位置特征生成.采用该方法可以从多种类型的网页中抽取正文信息.我们针对5个网站进行了实验,实验结果表明该方法的可行性和有效性.
- 王一洲陈星戴远飞
- 关键词:网页聚类节点密度
- 基于特征选择的网络入侵检测方法被引量:34
- 2017年
- 针对现有入侵检测算法中存在着冗余或噪声特征导致的检测模型精度下降与训练时间过长的问题进行了研究,将特征选择算法引入到入侵检测领域,提出了一种基于特征选择的入侵检测方法。利用不同的离散化与特征选择算法生成具有差异的多个最优特征子集,并对每个特征子集进行归一化处理,用分类算法对提取后的特征进行学习建模。通过实验将该方法与基于传统算法(决策树、朴素贝叶斯、支持向量机)的入侵检测方法作比较,实验结果表明,该方法有效地提高了检测攻击的准确率,并且降低了模型的训练时间。
- 戴远飞陈星陈宏叶靓林俊鑫郭文忠
- 关键词:入侵检测
- 一种基于句法语义的农业领域关系抽取方法
- 本发明涉及一种基于句法语义的农业领域关系抽取方法,首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理,去除掉无关文本,得到就是与农业领域相关的文本。结合事先确定的关系种类,对农业领域文本进行人工标注,构建...
- 陈星陈艺燕戴远飞郭晨皓张祖文
- 文献传递
- 一种基于网页聚类的正文信息提取方法
- 本发明涉及一种基于网页聚类的正文信息提取方法,将网站级别与网页级别相结合,通过网站级别的网页聚类来实现平滑网页之间的差距,再利用网页分块和节点的密度特征来确定该类网页正文的位置,并提取相应的抽取规则。本发明可以有效的提高...
- 陈星王一洲戴远飞
- 文献传递
- 一种基于特征选择的入侵检测方法
- 本发明涉及一种基于特征选择的入侵检测方法,首先对原始数据进行离散化处理,将离散化处理之后的数据进行特征选择,对特征选择之后的数据进行归一化处理,将归一化处理之后的数据导入分类器进行训练。本发明能够在训练模型的时间和准确率...
- 陈星戴远飞
- 文献传递
- 面向信息发布类网站的移动版自动生成的方法
- 本发明涉及一种面向信息发布类网站的移动版自动生成的方法,其包括以下步骤:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要...
- 陈星王一洲戴远飞
- 价值观相关话题的文本判别方法
- 本发明提供一种价值观相关话题的文本判别方法,其包括以下步骤:步骤S1:基于选定的种子词,从社交网络上搜索出具有代表性的帖子,基于领域知识提出主题词,组成主题词库;步骤S2:结合专家知识和具有代表性的帖子验证,建立相关话题...
- 郭文忠戴远飞陈星
- 文献传递
- 面向法制相关文本的判别方法
- 本发明涉及一种面向法制相关文本的判别方法。利用爬虫在互联网上爬取法制相关文本,构建法制相关语料库;对法制相关语料库中的语料标注关联度,并且利用结巴分词技术及TF‑IDF关键词技术对每条语料进行分词,统计得到关键词;利用关...
- 陈星黄志明陈艺燕戴远飞张祖文
- 文献传递
- 面向信息发布类网站的移动版自动生成的方法
- 本发明涉及一种面向信息发布类网站的移动版自动生成的方法,其包括以下步骤:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要...
- 陈星王一洲戴远飞
- 文献传递
- 面向文本的知识图谱自动构建与表示方法研究
- 目前,人工智能正逐步从感知智能向认知智能演变。人们不再满足于通过统计机器学习算法得到结果,而是更关心学习结果的可解释性以及数据本身所蕴含的知识。知识图谱,这一由节点和边组成的大规模语义网,俨然成为了认知智能背景下一种重要...
- 戴远飞
- 关键词:关系抽取链接预测