国家自然科学基金(61331013)
- 作品数:47 被引量:167H指数:8
- 相关作者:高定国赵小兵唐松刘洋孙茂松更多>>
- 相关机构:西藏大学中央民族大学清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家语委科研项目更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 通信及网络对少数民族青少年民族语言文字使用影响研究——以新疆为例
- 2017年
- 当今的通信及网络正在改变着人们的生活,也影响着少数民族青少年语言文字的使用环境。少数民族青少年是少数民族语言文字的传承者,他们对本民族语言文字的使用情况关系到这个民族语言文字的生存和发展。本文以新疆少数民族青少年为例,调查与研究了现代通信及网络对他们民族语言文字使用的影响。
- 王利众朱丽平赵小兵
- 关键词:通信网络少数民族青少年语言文字
- 少数民族大学生民族语言文字使用状况研究——以中央民族大学为例
- 2016年
- 少数民族青少年是少数民族语言文字的传承者,少数民族大学生是少数民族青少年的精英,他们对本民族语言文字的使用情况关系到这个民族语言文字的生存和发展。本文以中央民族大学少数民族大学生为例,调查与研究了他们在北京使用本民族语言文字的情况。
- 王利众朱丽平赵小兵
- 关键词:少数民族大学生语言文字
- 浅谈大数据对教育的影响被引量:20
- 2015年
- 随着互联网技术的革新,大数据开始蔓延至各个行业和领域,影响着人们的知识体系和生活方式。在大数据时代,能否激发和利用隐藏于数据内部未被发掘的价值,实现在教育领域的革新,取决于人们对于数据及其潜在价值和功能的认识和态度。本文主要阐述大数据以及大数据时代的基本概念,描述了大数据对教师的责任心和师德提出了更大的要求,并总结大数据时代思维方式为教育带来的启发。
- 周若松王志娟
- 关键词:大数据教育师德思维方式
- 跨语言命名实体翻译对抽取的研究综述被引量:2
- 2017年
- 跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。
- 王志娟李福现
- 关键词:音译网络挖掘
- 基于红黑树的操作与检验
- 2014年
- 文章分析了红黑树的优点和用途,以及构建红黑树,并对红黑树进行插入、查找和删除结点(若待删除结点不在红黑树中,则输出"notfound!"提示)的操作,通过中序遍历输出构建和操作后的红黑树的结点的数值和颜色,达到检验调整后红黑树的正确性的目的。
- 唐松格桑多吉
- 关键词:红黑树
- 基于LDA-MFCC的藏语语音特征提取技术研究被引量:1
- 2014年
- 藏语特征提取算法是藏语语音识别系统中最为关键的一个环节。文章在分析藏语发音特点的基础上,建立了基于模拟人耳听觉系统的Mel倒谱系数(MFCC)特征提取算法,然后通过LDA信息压缩算法,对提取的特征数据进行压缩,在降低维数的同时提高了识别率和运算效率,总结出了符合藏语语音特点的LDA-MFCC特征提取算法。
- 普次仁顿珠次仁
- 关键词:MFCCLDA特征提取
- 层次短语翻译的神经网络调序模型被引量:2
- 2014年
- 调序歧义是层次短语翻译模型面临的主要挑战之一,但在该类模型中使用的上下文信息非常有限,制约了该类模型处理调序歧义的能力。为了更充分地利用上下文信息,提出了一种面向层次短语翻译模型的神经网络调序模型。该模型将调序看作分类问题,首先使用递归自动编码器为任意长度的字符串计算向量表示,然后使用这些向量表示作为分类特征,用于预测不同调序方式的概率,最后将这些概率作为新的特征加入翻译模型中进行翻译。实验结果显示:在中—英翻译任务上,该模型相比基线系统获得了0.3~0.8的BLEU值提升,具有更好的调序能力。
- 李鹏刘洋孙茂松
- 关键词:计算机科学与技术神经网络
- 现代蒙古语词干复合词研究
- 2018年
- 粘着语的基本构词方法是词根加词缀,因而词干复合词研究有助于揭示和理解部分构词附加成分的来源和形成途径,具有类型学研究意义。思维的发展和表达需求的细化是词干复合词产生的外在条件,其中书面文学语言的发展具有重要意义。概念融合和词化是词干复合词产生的内在条件。词干复合词的出现与词的功能分布和句中位置有一定的关系。词内元音和谐影响和后置成分是否保持独立重音是衡量词干复合词融合程度的重要标志。词干复合词研究还对规范正字法上的合写连写问题,有一定的参考价值。
- 宝玉柱那达木德
- 关键词:蒙古语词法
- 领域本体的藏文主题爬虫搜索策略研究被引量:1
- 2015年
- 针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。
- 高红梅仁青诺布普次仁
- 关键词:本体相似度计算藏文网页主题发现
- 基于置信度的藏文人名识别的主动学习模型研究被引量:4
- 2019年
- 训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。
- 王志娟刘飞飞赵小兵赵小兵
- 关键词:置信度