公共文化服务平台

2025年1月31日星期五

|

欢迎来到鞍山市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

戴上静: 作品数：3 被引量：11H指数：2; 供职机构：中国科学技术大学更多>>; 发文基金：安徽省科技攻关计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

石春中国科学技术大学信息科学技术学...
吴刚中国科学技术大学信息科学技术学...
苏宇中国科学技术大学信息科学技术学...
凌青中国科学技术大学信息科学技术学...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

3篇中文期刊文章

领域

3篇自动化与计算...

主题

2篇中文
1篇多格式
1篇多进程
1篇多模式
1篇多模式匹配
1篇多模式匹配算...
1篇任务分配算法
1篇特征串
1篇中文编码
1篇中文分词
1篇文本抽取
1篇模式匹配算法
1篇分词
1篇TRIE树
1篇WM
1篇WU
1篇WU-MAN...
1篇插件
1篇抽取

机构

3篇中国科学技术...

作者

3篇戴上静
3篇吴刚
3篇石春
1篇凌青
1篇苏宇

传媒

1篇电子技术（上...
1篇小型微型计算...
1篇微型机与应用

年份

1篇2015
2篇2014

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

中文分词中的正向增字最大匹配算法研究被引量：7: 2014年; 针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。; 戴上静石春吴刚; 关键词：中文分词 TRIE树

基于插件的文本抽取系统的设计与实现: 2014年; 为了使全文检索系统支持多种文件格式的检索,必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题,文章设计了一种基于插件的支持多格式的文本抽取系统,该系统采用文件后缀名和魔数(magic number)结合的方式自动识别文件类型,以统一接口调用已存在的针对单一类型文件的抽取插件,对得到的纯文本进行编码转换以使得最终的输出编码统一,系统还针对目录输入设计了多进程并行优化以利用CPU多核优势,使用贪心算法优化任务分配以使总运行时间尽可能短。该系统易于扩展,编程接口简单。实验结果表明,该系统能正常抽取文本内容和元数据,且其抽取效率高于Apache的Tika等开源文本抽取系统。; 苏宇戴上静石春凌青吴刚; 关键词：文本抽取多格式插件多进程任务分配算法

一种改进的针对中文编码的Wu-Manber多模式匹配算法被引量：4: 2015年; Wu-Manber算法是多模式匹配领域性能优越的算法之一.针对Wu-Manber算法不能很好的用于中文环境,以及滑动距离受限和冗余匹配的问题,提出一种改进的针对中文编码的WM_CH多模式匹配算法.WM_CH针对中文编码修改了哈希函数,优化了建立哈希表的过程;修改并优化了算法匹配过程,在执行精确匹配时消除了冗余匹配,增大了单次精确匹配后的滑动距离.实际测试表明,该算法性能优异,保持与原算法匹配精确度一致,针对中文编码能快速过滤非中文字符.在特征串集规模大于50 000时,匹配速度比原算法提升40%以上,同时滑动窗口的跳转次数显著下降.; 王一霈石春戴上静吴刚; 关键词：多模式匹配算法特征串

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张