您的位置: 专家智库 > >

张刚

作品数:42 被引量:106H指数:6
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 16篇会议论文
  • 13篇专利
  • 11篇期刊文章
  • 1篇学位论文
  • 1篇科技成果

领域

  • 29篇自动化与计算...
  • 1篇文化科学

主题

  • 10篇信息检索
  • 10篇分布式
  • 10篇分布式信息
  • 9篇网络
  • 9篇聚类
  • 8篇抽取
  • 7篇信息处理
  • 7篇网页
  • 7篇分布式信息检...
  • 6篇用户
  • 6篇索引
  • 6篇链接
  • 6篇WEB信息
  • 5篇信息采集
  • 5篇引擎
  • 5篇搜索
  • 5篇搜索引擎
  • 5篇网络信息
  • 5篇WEB信息采...
  • 4篇信息抽取

机构

  • 42篇中国科学院
  • 6篇中国科学院研...
  • 1篇中国科学技术...
  • 1篇国家计算机网...

作者

  • 42篇张刚
  • 18篇王斌
  • 12篇郭岩
  • 12篇程学旗
  • 9篇丁国栋
  • 9篇张凯
  • 8篇吴丽辉
  • 5篇刘悦
  • 4篇王宇
  • 3篇白硕
  • 3篇周昭涛
  • 2篇许洪波
  • 2篇曹冬林
  • 2篇梅雪
  • 2篇吴博
  • 2篇王斌
  • 2篇张斌
  • 2篇李魁
  • 1篇段洣毅
  • 1篇谭建龙

传媒

  • 3篇计算机工程
  • 3篇中文信息学报
  • 3篇第二届全国信...
  • 3篇第二届全国信...
  • 2篇全国第八届计...
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇高技术通讯
  • 1篇小型微型计算...
  • 1篇软件学报
  • 1篇第一届全国信...
  • 1篇中国科学院计...
  • 1篇NCIRCS...
  • 1篇全国第八届计...

年份

  • 2篇2012
  • 3篇2011
  • 5篇2010
  • 1篇2009
  • 4篇2008
  • 7篇2007
  • 4篇2006
  • 12篇2005
  • 3篇2004
  • 1篇2000
42 条 记 录,以下是 1-10
排序方式:
网格系统软件
徐志伟谢向辉肖侬唐志敏迟学斌李伟时永红施巍松赵广为卜冠英黄飏李常顾健易声旗杨琳桂祚勤卢德平高峰杨义军黄勇徐涛刘飞王意洁黄遵国任浩任剑勇卢宇彤李明张源游赣梅刘东华张刚王涌曹鸿强
本期项目研制的网格系统软件GridWare的关键技术为:全网格统一的资源信息管理;全网格统一的用户管理;全网格统一的作业管理;全网格统一的用户实用工具;全网格统一的安全和认证系统。GridWare系统分为两层结构:与底层...
关键词:
关键词:网格
基于主题的分布式信息检索研究
本文通过以主题的方式构建分布式信息检索的文档集合,将传统的按照出版时间、信息来源构造文档集合的方法作为不限,对比看出基于主题的方法在检索的效果上明显提高,原因是以主题的方式建立文档集合便查询的答案有效的凝聚在少数文档集合...
张刚周昭涛王斌
关键词:信息检索文本聚类网络信息
文献传递
一种在股评论坛中挖掘股评托的方法
本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用...
郭岩白硕张凯王斌张刚
文献传递
基于站点的Web信息采集器研究
基于站点的采集器是一类有针对性的采集器,它以站点作为采集的单位。本文在总结以往工作的基础上,首先说明站点采集自身的特点,然后讨论如何提高其性能,最后是实际的系统介绍和展望。
张凯李魁张刚王斌
关键词:采集器WEB站点
文献传递
一种优化网站链接结构的方法
本发明涉及网络信息处理技术领域,是一种利用网络用户对网页之间相关性的潜在理解来优化网站链接结构的方法。该方法利用网站的服务器日志中蕴含的网络用户对网页之间相关性的潜在理解,从网站的服务器日志中抽取出用户主观上认为的网站链...
郭岩刘悦王斌张刚
文献传递
Web信息采集中的哈希函数比较被引量:11
2006年
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
吴丽辉白硕张刚张凯
关键词:WEB信息采集哈希函数URL
个性化Web信息采集系统PSearch的设计
传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求.本文介绍了个性化Web信息采集系统PSearch的设计,重点分析了Psearch中用户兴趣个性化信息的...
吴丽辉张凯张刚王斌
关键词:WEB信息采集用户兴趣搜索引擎
文献传递
基于链接划分的分布式WEB信息检索被引量:1
2007年
分布式信息检索是面向海量 WEB 信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIB-CA)来对网页数据进行划分,并采用 BloomFilter 优化 LIBCA 算法的计算效率,在检索过程中采用 CORI 集合选择算法和 OKAPI BM25检索算法.基于最近3年的 TREC WEB 实验数据集,对比集中式检索、基于随机划分的分布式检索,实验结果表明,本文方法在 P@10的指标上可达到甚至超过集中式检索的效果.效率方面的实验表明利用BloomFilter 的 LIBCA 算法具有较高的划分效率,适合海量数据的处理.
张刚王斌吴丽辉
关键词:网页链接聚类分布式信息检索
分布式信息检索的集合选择研究被引量:4
2007年
集合选择是分布式信息检索中的重要问题,将集合选择问题转化为文档检索问题,尝试了多种文档检索方法来解决集合选择问题,并将各种方法的文档检索结果与集合选择结果进行了对比,通过与经典的集合选择算法CORI相比较,实验发现语言模型的集合选择方法能够取得令人满意的结果。
张刚郭岩张凯
关键词:分布式信息检索语言模型
一种网页的正文抽取方法
本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
郭岩丁国栋张刚
共5页<12345>
聚类工具0