黄晓辉
- 作品数:4 被引量:34H指数:4
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏语口语语音语料库的设计与研究被引量:8
- 2018年
- 基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。
- 黄晓辉李京李京
- 关键词:语音语料库语音识别
- 基于循环神经网络的藏语语音识别声学模型被引量:16
- 2018年
- 探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。
- 黄晓辉李京
- 关键词:循环神经网络声学建模
- 中文分词与命名实体识别的联合学习被引量:9
- 2021年
- 将卷积结构引入循环神经网络,从而构建卷积循环神经网络。以此为基础,研究构建了面向中文分词与实体识别联合学习的序列标注模型。该模型依托卷积循环神经网络构建特征编码层,实现中文字序列局部空间特征和长距离时序依赖特征的联合提取;依托改进的循环神经网络构建标签解码层,实现标签序列长距离时序依赖的有效建模;依托统一的分词与实体识别序列标注模式实现分词信息与实体信息的联合学习,避免传统流水线法的误差传播问题。在人民日报语料和微软标注语料上的实验结果显示,该框架较传统统计模型和神经网络模型有显著的性能提升,尤其是在识别字数较多的命名实体时,其效果明显优于其他方法。
- 黄晓辉乔立升余文涛余文涛李京
- 基于免疫网络的分类应用于审计欺诈检测被引量:4
- 2005年
- 分析被审计单位数据从而检测出欺诈记录是当前审计工作的一个重要课题,传统的数据挖掘方法在处理该问题时存在很大的局限性。论文提出了一种基于免疫网络的分类算法,基于训练数据构建自我和非我网络来提取正常模式和欺诈模式。算法根据新数据同自我非我网络的匹配情况来定量地计算欺诈分来实现分类。算法引入了免疫学习、免疫克隆、免疫记忆机制,并引入免疫变异机制提高对未知模式的识别能力。论文针对标准数据和审计数据完成了相应的验证实验。结果表明该算法具有较好的分类能力和欺诈检测能力。
- 黄晓辉张四海王煦法
- 关键词:免疫网络审计欺诈检测