现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。
现实世界的实体间往往存在着复杂的语义关系,而且实体间的关系往往是相互的。现有数据库无论是扩展了对象关系模型的Oracle,还是首次提出逆向关系定义的ODMG(object data management group),它们对现实世界中实体之间复杂语义关系及其逆向关系的描述和处理依然存在着很大的不足。为了更好地表述和处理现实世界中实体间复杂的语义关系,提出了一种能够简易描述实体间复杂语义的新方法。介绍了该方法如何针对复杂语义关系建立模型和插入对象,指出了该方法相对于传统模型的优越性,设计实现了实体间逆向关系和目标对象类的自动创建和生成机制,分析了数据库一致性维护问题。比较了基于新方法实现的DBMS(data base management system)和Oracle的性能,指出了基于新方法的DBMS存在的问题。
在分布式集群系统中,数据根据划分算法存储在集群的各个节点,这为涉及大量连接操作的复杂查询带来了昂贵的网络开销。针对该问题,基于信息网模型INM(Information Network Mode),提出最小通信量查询划分算法和多目标查询优化算法。其中查询划分算法将复杂查询划分成多个PWOC(parallelizable without communication)子查询,所有子查询可近似无通信地并行执行。多目标优化算法将子查询作为查询计划的基本操作,并将并行性和通信代价同时作为驱动目标,以传统多目标加权算法结合贪心策略作为评估依据生成查询计划树。最后,系统基于TPC-H基准生成测试数据,将原始算法与优化算法进行了对比实验,结果表明优化算法可以极大提高复杂查询的效率。