搜索到290篇“ DOM树“的相关文章
基于DOM和混合文本密度的网页信息提取方法研究
2023年
在网页信息提取领域,文档对象模型(Document Object Model,DOM)和混合文本密度是两个重要的概念。文章提出一种基于DOM和混合文本密度的网页信息提取方法。首先,利用DOM结构分析网页的标签层次结构,确定每个标签的重要性;其次,根据混合文本密度计算每个标签中包含有用信息的概率并且提取重要信息;最后,进行实验分析。实验结果表明,该方法能够有效提取网页中的有用信息。
魏建兵
关键词:DOM树信息提取
基于Web网页的DOM链接预分类、信息抽取方法研究
2023年
为满足Web网页的数据记录、自动抽取需求,提出依托DOM特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算路径,根据各网页链接的XPATH路径进行分组,DOM特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。
罗莎
关键词:WEB网页信息抽取方法
基于DOM遍历的优质线上教学资源聚类策略研究
2023年
随着信息技术的飞速发展,互联网已在不知不觉中深刻影响着教育领域,网页中蕴藏着丰富的信息成为新的教学资源。为了有效地获取网页中的信息,Web信息提取技术应运而生,它提取位于非结构化或半结构化页面中的信息并进行存储。然而,面对当前线上教学资源良莠不齐、离散度高、缺乏优质资源遴选机制的现实情况,教师和学生在浩如烟海的资源中查找符合自身需求的优质资源往往要花费大量精力,急需一种自动化提取目标信息并对海量信息进行聚类存储的算法策略。本文拟构建高效的DOM遍历算法提取目标信息,并运用和调优DBSCAN算法对提取信息进行聚类,以此实现自动化的为广大师生遴选优质线上教学资源。
袁赠欢冯惠
关键词:DOM教学资源聚类
一种更新DOM的方法
本发明公开了一种更新DOM的方法,包括:根据真实DOM生成虚拟DOM;在虚拟DOM的一个旧节点oldVnode的数据改变后,生成一个新节点Vnode;比较旧节点oldVnode和新节点Vnode,将新节点Vnod...
唐可炜谢赟周龙
应用于网页中DOM处理方法
本发明公开了一种应用于网页中DOM处理方法,包括以下步骤:步骤S10,获取目标网页所对应的DOM,删除DOM中无效信息;步骤S20,计算目标网页中子节点的文本密度和链接密度;步骤S30,根据文本密度和链接密度计算第...
詹锦州杜卫红谢立欧
一种基于DOM的全类型文本替换方法、系统、装置及存储介质
本发明提供了一种基于DOM的全类型文本替换方法、系统、装置及存储介质,该方法包括:扫描网站的DOM,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;将字体文件中每个字体单元进行转换为图片;对字体文...
杜卫红谢立欧蒋立民郑永乐詹锦州
基于DOM与模板的自适应网络信息抽取方法被引量:2
2022年
针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则。实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能。
柏志安廖健曾剑平
关键词:信息抽取自适应DOM树
基于DOM和混合文本密度的网页信息提取方法研究
随着信息技术的飞速发展,大量的互联网信息资源以网页的形式存在,并呈现出数量化和专业化的增长趋势。同时,广告、网站导航、版权信息、图片等无关信息越来越多,更有甚者占据了网页的二分之一。这些网页噪声的存在不仅仅给网页的信息提...
陈壮
关键词:信息提取DOM树页面分块
一种基于DOM的RPA系统网页元素定位方法和系统
本发明提出了一种基于DOM的RPA系统网页元素定位方法和系统,属于机器人流程自动化(RPA)技术领域。包括:利用RPA系统获取目标元素以及DOM结构;从下往上依次遍历DOM结构,利用自定义元素结构存储当前元素的属性...
曹文浩姜伟昊佘清顺
文献传递
一种基于DOM的招标网站中标信息抽取方法
本发明的目的是挺一种基于DOM的招标网站中标信息抽取方法,包括以下步骤:首先通过对招标网站的中标信息列表页的采集,得到每一个中标项目在列表页中显示的标题以及中标项目详情页的链接,并通过链接得到中标项目详情页的HTML代...
陈羽中林剑郭昆张伟智

相关作者

莫海芳
作品数:42被引量:91H指数:6
供职机构:中南民族大学计算机科学学院
研究主题:存储介质 DOM树 基因表达式编程 文本 遗传算法
李子茂
作品数:52被引量:0H指数:0
供职机构:中南民族大学
研究主题:存储介质 抽取方法 DOM树 分类器 病害识别
吴经龙
作品数:28被引量:18H指数:3
供职机构:中南民族大学
研究主题:存储介质 DOM树 聚类结果 查准率 查全率
帖军
作品数:225被引量:322H指数:8
供职机构:中南民族大学
研究主题:存储介质 茶叶 病害识别 柑橘 卷积
陈星
作品数:185被引量:130H指数:6
供职机构:福州大学
研究主题:卸载 软件体系结构 混合云 适应度函数 自适应