重庆市高等教育教学改革研究项目(0635207)
- 作品数:6 被引量:30H指数:3
- 相关作者:何中市伍星黄永文李杰李双庆更多>>
- 相关机构:重庆大学重庆理工大学四川美术学院更多>>
- 发文基金:重庆市高等教育教学改革研究项目重庆市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于依存内容单元的金字塔自动摘要评估被引量:3
- 2009年
- 提出一种基于依存内容单元的金字塔自动摘要评估方法,通过确定依存内容单元,构建金字塔模型,给出相应的自动评估流程。该方法不仅能够避免人工处理的不稳定性,并可实现整个评估过程的自动化。仿真实验结果表明,该方法的Person相关系数及Sperman相关系数均大于传统ROUGE-1算法。
- 龙华何中市伍星李双庆
- 关键词:依存语法
- 一种新型的文本无监督特征选择方法被引量:3
- 2007年
- 结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能。实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降。实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法。
- 何中市徐浙君
- 关键词:自然语言处理
- 基于时间序列分析的动态分布平滑方法
- 2008年
- 统计语言模型在实际应用中显示出了不俗的效果,但由于语言的灵活性,模型的数据稀疏问题始终不能避免,现有的平滑方法只考虑了模型中元素出现的频数,没有考虑到语言的使用是随着时间变化的.本文分析了模型中词语随着时间的变化而出现的频数变化情况,利用时间序列模型分析中的预测方法获得下一个阶段的数据来估计模型的参数,提出了一种对在时间线上频数增加的词语增加概率值,对频数减少的则降低概率值的动态分布平滑方法.实验数据显示,本平滑方法具有一定的优越性.
- 黄永文何中市王海燕
- 关键词:自然语言处理统计语言模型数据稀疏时间序列分析
- 用户评论的分类获取被引量:6
- 2009年
- 对网上获取的用户评论进行标注,并提取出与用户评论内容相关的特征,使用χ2统计提取不同类型评论进行特征选择,使用支持向量机分类方法进行学习,获得分类器,以此对网上时时更新的用户评论进行分类,挖掘出优秀的评论。实验结果显示该方法具有很高的召回率和准确率。
- 黄永文何中市伍星
- 关键词:支持向量机
- 产品特征的层次关系获取被引量:5
- 2009年
- 产品评论挖掘用来对用户发表到网络上的众多评论内容进行信息提取,从而获得用户对产品的部件或功能的褒贬评价。现有的产品评论挖掘研究中没有对上下位的特征、同一特征的不同词语表达进行处理。首先对厂家规格说明文档的结构化表示进行挖掘获得厂家规格特征及其关系,再使用Bootstrapping弱监督方法从网站编辑评测文章中抽取出用户的描述特征及与规格特征之间的层次关系。应用该方法在手机领域的产品特征关系进行了抽取,实验结果显示获得的产品特征之间的层次关系很好的效果。
- 黄永文何中市伍星
- 关键词:数据挖掘BOOTSTRAPPING
- 基于ORM的轻量级数据持久化技术研究及应用被引量:13
- 2010年
- 针对如何在对象和关系数据库之间建立一种高效的映射关系的问题,在深入研究数据持久层的核心功能的基础上,分析和比较了当前流行的解决数据持久层问题的典型技术方案及其各自的优缺点,借鉴数据持久层设计的一般思想和Hibernate的功能与实现思路,具体实现了一个较为通用的数据持久层框架。
- 李杰
- 关键词:ORM轻量级数据持久化HIBERNATE