徐山
- 作品数:3 被引量:6H指数:1
- 供职机构:南京城市职业学院更多>>
- 发文基金:国家自然科学基金浙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 不可靠语料库的提纯及词权度量指标IDF的改进被引量:1
- 2013年
- 不良短信的泛滥严重影响了社会风气,干扰了人们正常的生活秩序,研发不良短信过滤技术具有相当高的实用价值。研究了文本分类中的两个问题,可应用于不良短信过滤。其一是应用聚类方法进行不可靠语料集的提纯,实验表明,该方法对不可靠数据的提纯效果比较明显;其二是关于IDF词权度量指标的一点改进。
- 徐山杜卫锋
- 关键词:短信过滤向量空间模型IDF聚类
- 不均衡训练集下短信过滤系统kNN方法的研究被引量:1
- 2013年
- 不良短信的泛滥,严重影响了社会风气,干扰了人们正常的生活秩序,研发不良短信过滤技术具有相当的实用价值。应用中科院计算所研制开发的ICTCLAS分词系统,结合TFIDF词权度量指标提取关键词,实现短信文本到特征向量的转换,然后采用kNN方法实现短信的类别判断,从而实现不良短信的过滤。另外,针对训练集分布不均衡的情况,应用基于密度的改进方法,较为有效地处理了原来分类结果倾向于大类别样本的情况。实验表明,改进后的方法的准确率约79.18%,比原方法提升了约1.23%。该方法能够比较有效地过滤不良短信,具有一定的实用价值。
- 徐山杜卫锋
- 关键词:短信过滤向量空间模型
- 一种新的模糊决策表属性约简方法被引量:4
- 2013年
- 粗糙集理论研究的核心内容之一是属性重要性的度量和属性约简。经典的粗糙集模型基于等价关系,适合于处理离散属性值。模糊粗糙集理论将模糊集和粗糙集理论结合起来,将等价关系扩展为模糊关系,可处理模糊属性值。分析了已有广泛运用的模糊决策表的属性约简算法FRAR存在的三个问题,提出了一种新的约简算法,较好地克服了原算法的问题,能处理规模较大的模糊决策表。
- 徐山杜卫锋闵啸
- 关键词:粗糙集模糊粗糙集贴近度依赖度