国家自然科学基金(60873166)
- 作品数:6 被引量:25H指数:2
- 相关作者:王斌马宏远徐燕张爱华靖红芳更多>>
- 相关机构:中国科学院中国科学院研究生院北京语言大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 非均衡文本分类中基于特征分布的抽样技术研究
- 在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOT...
- 张爱华王斌徐燕
- 关键词:文本分类非均衡OVER-SAMPLING高斯混合模型
- 文献传递
- 电动助力车智能控制器的设计
- 电动助力车作为新型绿色交通工具具有广阔的市场前景。针对控制器辅助力矩调节不能满足复杂人机协同的问题,提出采用模糊技术进行助力比调节的控制方案,根据车速确定静态助力比,依据加速度、脚踏力矩变化,采用模糊技术调节动态助力比。...
- 陈琳徐燕
- 关键词:电动助力车模糊控制电机控制
- 文献传递
- 一种基于预取感知接纳策略的查询结果缓存方法
- 2012年
- 针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型以及模型特征选择方法.在该策略基础上,设计了一种查询结果缓存方法.在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的典型方法相比,该方法可以获得6.38%~11.99%的缓存命中率提升.
- 马宏远王斌
- 关键词:缓存查询结果搜索引擎信息检索
- 电动助力车智能控制器的设计
- 电动助力车作为新型绿色交通工具具有广阔的市场前景。针对控制器辅助力矩调节不能满足复杂人机协同的问题,提出采用模糊技术进行助力比调节的控制方案,根据车速确定静态助力比,依据加速度、脚踏力矩变化,采用模糊技术调节动态助力比。...
- 陈琳徐燕
- 关键词:电动助力车模糊控制电机控制
- 文献传递
- 一种基于查询特性的查询结果缓存与预取方法
- 2011年
- 针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。
- 马宏远王斌
- 关键词:搜索引擎查询结果缓存
- 文本分类中特征权重因子的作用研究被引量:18
- 2010年
- 在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。
- 张爱华靖红芳王斌徐燕
- 关键词:计算机应用中文信息处理文本分类VSM
- Tag-TextRank:一种基于Tag的网页关键词抽取方法
- 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag数据进行统计分析的基础上,提出了...
- 李鹏王斌石志伟崔雅超李恒训
- 关键词:社会化标签关键词抽取
- 文献传递
- 文本分类中特征权重因子的作用研究
- 在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权...
- 张爱华靖红芳王斌徐燕
- 关键词:文本分类VSM
- 文献传递
- 基于用户特性的搜索引擎查询结果缓存与预取被引量:2
- 2012年
- 针对搜索引擎查询结果缓存与预取问题,与传统的基于查询特性相关的方法不同,提出了一种基于用户特性的缓存与预取方法,用于提高搜索引擎系统性能,尤其针对部分用户效果更显著。通过对国内某著名商业搜索引擎用户的查询贡献分析得出,用户对搜索引擎的贡献具有长尾分布特性,结合该特性设计查询结果预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的基于查询特性的典型方法相比,该方法可以获得3.03%~4.17%的命中率提升,对于查询贡献最大的0.25%的用户群体,可以获得20.52%~28.2%的命中率提升。
- 马宏远王斌
- 基于用户行为分析的个人信息检索研究
- 个人信息检索是个人计算机上用户搜索文件的一种重要技术,但同互联网检索相比,个人信息检索能利用的信息很少,这使得个人信息检索的排序成为很困难的问题。本文通过收集计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。其...
- 蒋在帆王斌
- 关键词:计算机应用统计学习
- 文献传递