邓绪斌 作品数:9 被引量:31 H指数:3 供职机构: 浙江财经学院信息学院 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 浙江省教育厅科研计划 更多>> 相关领域: 自动化与计算机技术 自然科学总论 生物学 更多>>
生物信息数据处理系统研究 1引言人类基因组计划的初步完成引发了生命科学研究的新进展,导致各种异构生物信息数据迅速产生。生物信息数据的整合问题已成为生物信息学研究的急迫问题和计算机界研究的热点。 朱扬勇 邓绪斌关键词:DBMS 文献传递 一种无改写的正则表达式分析树构造算法 被引量:2 2007年 数据抽取常用正则表达式(RE)来描述数据源。为实现可视化描述,需将RE转换成分析树。但现有基于改写的RE分析树构造方法会破坏数据对象的内在结构,不能用于数据抽取问题。提出了一种无改写的RE分析树构造算法。实验表明,该算法在时空间性能和实用性等方面优于现有RE分析树构造算法。 邓绪斌关键词:数据抽取 改写 语义异构生物数据源中的数据集成与更新 被引量:8 2008年 针对生物数据源的分布性、异构性和动态性等特性,探讨生物信息技术服务支撑系统整体解决方案,构建基于基因本体的信息集成模式以实现生物语义学上的数据集成。设计一种以半结构化形式规范生物元数据及基于MD5算法的增量更新技术,用以解决通用扩展性和效率问题,实现生物数据仓库中数据的共享并提高管理效率。 杨森 夏燕 曹顺良 邓绪斌 朱扬勇关键词:基因本体 半结构化 MD5算法 生物数据仓库半结构化增量更新技术的研究与实现 1引言在世界范围内众多研究机构的推动下,近十年来,生物数据呈指数级增长。迄今,可利用的在线生物数据源已达500多个。如何将它们整合起来,为生物学家搭建方便而高效的查询分析平台,已成为计算机界研究的热点。 夏燕 邓绪斌 李岱 朱扬勇关键词:BIOINFORMATICS HETEROGENEITY SEMI-STRUCTURED 文献传递 ReDE:一个基于正则表达式的生物数据抽取方法 被引量:12 2005年 从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· 邓绪斌 朱扬勇关键词:数据抽取 元数据 正则表达式 抽取算法 VI-DE:DE-Wrapper的可视化编辑调试环境 2006年 介绍了VI-DE,数据抽取工具DE-Wrapper的可视化编辑调试环境。DE-Wrapper使用扩展正则表达式(ERE)描述数据源结构,根据该ERE构造数据抽取树(DE-树),然后根据DE-树生成相应的关系数据库模式,最后抽取数据。VI-DE整合了DE-Wrapper的工作流程。该工具首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE-树是否具有二义性,最后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。VI-DE已用于构建国内第1个整合的生物信息在线数据仓库系统。 李岱 邓绪斌 朱扬勇关键词:数据抽取 基于与或树的正则表达式有害二义性检查算法 被引量:3 2006年 在构造面向应用的正则表达式(RE)过程中,引入有益二义性可简化 RE 构造,而将有害二义性遗留在 RE中会危害匹配结果的正确性.为区别对待这两种二义性,基于与或树提出一种检查和定位 RE 中有害二义性的算法.该算法可减轻 RE 调试的工作量.实验表明,该算法在时间性能、空间性能和实用性等方面优于现有基于自动机的二义性检查算法.基于此算法的可视化 RE 编辑调试环境已用于构建国内第一个整合的生物数据仓库. 邓绪斌 朱扬勇关键词:二义性 与或树 基于最优树联配的正则表达式学习算法 被引量:3 2011年 由于正则表达式(RE)被广泛用于信息抽取、模式学习和生物序列分析等领域,因此开发能够从正样例集学习RE的算法很有实际意义.为克服现有RE学习算法在所学RE类型、样例数目和样例类型等方面存在的限制,基于最优树联配原理提出了一种基于树结构的RE学习算法.该算法的特点包括:采用自适应方法自动选择最优代价阈值;对所学RE类型、样例数目和样例类型等限制很少,因此适合于绝大多数RE应用.实验表明,该算法在所学结果 RE的实用性方面优于现有RE学习算法. 邓绪斌关键词:正则表达式 面向复杂数据源的数据抽取模型和算法研究 随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数... 邓绪斌关键词:数据抽取 抽取算法 数据库 包装器