朴星海
- 作品数:4 被引量:6H指数:1
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向Blog的网络爬行器设计与实现
- 随着一种新的信息管理和发布工具逐渐被大家认识和使用,互联网的“个人门户”时代已经迎面走来,这种新的信息组织和传播方式,就是Blog。本文针对Blog领域,设计并实现了一个面向Blog的网络爬行器。与通用爬行器相比,具有面...
- 朴星海赵铁军郑德权张迪
- 关键词:爬行器BLOG
- 文献传递
- 面向主题的网络爬行器相关技术研究
- 随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人们希望的信息,是一个意义巨大的问题。1994年开始出现的基...
- 朴星海
- 关键词:半结构化信息可扩展性分布式设计
- 文献传递
- 网络爬行器的分布式设计被引量:1
- 2009年
- 目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。
- 李卫疆赵铁军朴星海
- 关键词:分布式多线程
- 一种新的面向主题的爬行算法被引量:5
- 2009年
- 虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。
- 李卫疆赵铁军朴星海
- 关键词:爬行器主题面向主题