您的位置: 专家智库 > >

王一帆

作品数:2 被引量:2H指数:1
供职机构:北京师范大学信息科学与技术学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇中文
  • 2篇中文搜索
  • 2篇中文搜索引擎
  • 1篇信息提取
  • 1篇中文分词
  • 1篇抓取
  • 1篇网页
  • 1篇网页结构
  • 1篇网页抓取
  • 1篇分词
  • 1篇PHP
  • 1篇PYTHON
  • 1篇SOCKET
  • 1篇SOCKET...
  • 1篇LUCENE

机构

  • 2篇北京师范大学

作者

  • 2篇尹乾
  • 2篇郑新
  • 2篇曹书林
  • 2篇王一帆
  • 2篇吕青松

传媒

  • 1篇电子测试
  • 1篇信息与电脑

年份

  • 1篇2017
  • 1篇2016
2 条 记 录,以下是 1-2
排序方式:
面向中文搜索引擎的网页结构化信息获取系统的设计与实现
2016年
搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。
吕青松曹书林王一帆尹乾郑新
关键词:搜索引擎网页抓取信息提取PYTHON
基于Lucene与Socket通信的中文搜索引擎的设计与实现被引量:2
2017年
Lucene是一个用Java写的全文检索引擎工具包,面向对象多层封装,提供了一个低耦合、与平台无关的、可进行二次开发的全文检索引擎架构,是这几年最受欢迎的信息检索程序库;基于流式Socket的网络编程是设计网络通信程序的一种有效方法。本文基于Lucene,采用中文分词技术,设计并实现了中文搜索引擎,同时应用Java和PHP的Socket网络编程技术,实现了外网通过PHP网页使用Lucene服务的功能。
曹书林吕青松王一帆尹乾郑新
关键词:中文搜索引擎LUCENESOCKET中文分词PHP
共1页<1>
聚类工具0