龚晨
- 作品数:5 被引量:8H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏高校优势学科建设工程项目江苏省产学研联合创新资金项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多特征级联的视频监控中行人检测
- 2014年
- 针对基于机器学习的常规行人检测方法无法适应行人目标尺寸缩放、姿态多变及干扰噪声较大等问题,提出了一种级联LBP、SPHOG和SURF特征的自适应行人检测算法。该算法首先采用基于LBP特征的行人分类器去除大量非行人区域,在剩余区域用基于SPHOG特征行人分类器再次缩小区域,最后用基于SURF特征行人分类器检测并标记出行人目标。实验结果表明,该算法有效解决了行人尺度缩放、行人姿态多变和背景区域干扰噪声大问题,算法的准确度和实时性均取得了较大的改进。
- 龚晨黄蔚
- 关键词:干扰噪声直方图特征计算机视觉技术误检率
- 基于指针网络融入混淆集知识的中文语法纠错被引量:3
- 2022年
- 在中文语法纠错(CGEC)任务上,虽然替换类错误在数据集中占比最多,但还没有研究者尝试过将音近和形近知识融入基于神经网络的语法纠错模型中。针对这一问题,该文做了两方面的尝试。首先,该文提出了一种基于指针网络融入混淆集知识的语法纠错模型。具体而言,该模型在序列到编辑(Seq2Edit)语法纠错模型基础上,利用指针网络融入汉字之间的音近和形近知识。其次,在训练数据预处理阶段,即从错误-正确句对抽取编辑序列过程中,该文提出一种混淆集指导的编辑距离算法,从而更好地抽取音近和形近字的替换类编辑。实验结果表明,该文提出的两点改进均能提高模型性能,且作用互补;该文所提出的模型在NLPCC 2018评测数据集上达到了目前最优性能。实验分析表明,与基准Seq2Edit语法纠错模型相比,该文模型的性能提升大部分来自于替换类错误的纠正。
- 李嘉诚沈嘉钰龚晨李正华张民
- 数据标注方法比较研究:以依存句法树标注为例被引量:4
- 2022年
- 数据标注最重要的考虑因素是标注数据质量和标注成本。该文调研发现自然语言处理领域的数据标注工作通常采用机标人校的标注方法以降低成本,但很少有工作严格对比不同标注方法,以探讨标注方法对标注质量和成本的影响。该文依托一个成熟的标注团队,以依存句法树标注为案例,实验对比了机标人校、双人独立标注及该文通过融合前两种方法所提出的人机独立标注方法,结果发现:人机独立标注能有效结合机标人校和双人独立标注的优点,在利用机器降低标注成本的同时解决了校对者的认同倾向问题,从而提高了标注质量。
- 周明月龚晨李正华张民
- 基于神经耦合模型的异构词法数据转化和融合被引量:1
- 2020年
- 为了扩大人工标注数据的规模,从而提高模型性能,尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架,直接在两个异构训练数据上训练参数,测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验,结果表明,与多任务学习方法和传统耦合模型相比,神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。
- 黄德朋李正华龚晨张民
- 关键词:词性标注分词