江苏省高校自然科学研究项目(05KJB520017)
- 作品数:7 被引量:202H指数:4
- 相关作者:薛安荣鞠时光陈伟鹤何伟华姚林更多>>
- 相关机构:江苏大学更多>>
- 发文基金:江苏省高校自然科学研究项目国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 局部离群点挖掘算法研究被引量:110
- 2007年
- 离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.
- 薛安荣鞠时光何伟华陈伟鹤
- 关键词:离群点检测数据挖掘空间离群点
- 带数据项约束的序列模式挖掘
- 2008年
- 传统的数据挖掘方法会生成大量的模式和规则,且难以理解,而实际上用户感兴趣的只是其中的一小部分。针对该问题,在挖掘序列模式的PrefixSpan算法基础上提出一种带数据项约束的序列模式挖掘方法,通过数据项约束,减少了搜索空间。实验结果表明,该方法可以有效地挖掘出满足数据项约束的序列模式。
- 肖仁财薛安荣段西强
- 关键词:数据挖掘前缀后缀
- 基于空间约束的离群点挖掘被引量:13
- 2007年
- 由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。
- 薛安荣鞠时光
- 关键词:空间离群点离群点检测
- TPR-树性能优化研究
- 2008年
- 为了降低TPR-树的时间复杂度、提高查询效率,提出结点分裂的改进算法及基于距离的结构调整策略。改进算法把TPBR(time-pararneterized bounding rectangle)在某时间段内的周长定积分作为代价函数,并在投影定积分值最大的轴上进行结点分裂,做到了同时兼顾移动对象的空间属性与速度属性。在结构调整策略中通过删除结点中移动距离超过阈值的记录,从而使TPBRs的扩张速度变慢,在一定程度上抑制了TPBRs之间的重叠。实验结果表明,与原TPR-树结点分裂算法相比,改进后的结点分裂算法的运行时间降低了5~8倍,查询性能至少提高了50%,而且,在此基础上应用基于距离的结构调整策略使查询性能进一步提高约10%。
- 金泽锋薛安荣
- 关键词:时空数据库TPR-树查询性能
- 离群点挖掘方法综述被引量:79
- 2008年
- 离群点挖掘可揭示稀有事件和现象、发现有趣的模式,有着广阔的应用前景,因此引起广泛关注。首先介绍离群点的定义、引起离群的原因和离群点挖掘算法的分类,对基于距离和基于密度的离群点挖掘算法进行了比较详细的讨论,指出了其优缺点和发展方向,重点对当前研究的热点——高维大数据量的挖掘、空间数据挖掘、时序离群点挖掘和离群点挖掘技术的应用进行了讨论,指出了进一步研究方向。
- 薛安荣姚林鞠时光陈伟鹤马汉达
- 关键词:离群点挖掘局部离群点子空间剪枝空间离群点高维数据
- 基于可辨识矩阵的快速粗糙集属性约简算法被引量:15
- 2007年
- Karno Bozi提出的CoreSearching算法在向约简中插入候选属性的时候,根据属性出现次数需要循环查找可辨识矩阵中的所有剩余项,直至矩阵为空,导致计算量较大和结果中冗余属性存在的可能。基于Core Searching算法提出通过给属性设立计数器的基于可辨识矩阵的快速属性约简算法,实例分析表明,该算法与CoreSearching算法相比,在计算量减少和循环次数减少的同时能得到更简约的结果,是一种快速、高效的属性约简算法。
- 薛安荣韩红霞潘雨青
- 关键词:可辨识矩阵不可分辨关系属性约简粗糙集
- 基于时序离群检测的新的分段方法被引量:4
- 2007年
- 在对时序数据进行离群检测之前,一般先将原时序数据划分为若干个子序列,以便降低计算复杂度。现有的子序列划分方法一般是依据应用要求进行,而在某些情况下应用要求无法转换为有效的子序列划分方法。因此,提出从时序数据自身特点出发,得到突变系数和重要点,依据重要点和突变系数的新的划分方法,并以微软的股票数据进行测试。实验结果表明,分段方法不依赖于应用要求,具有简单、直观的特点,与相关算法相比,具有更高的检测精度。
- 薛安荣何伟华
- 关键词:时序数据