陈德华
- 作品数:83 被引量:172H指数:6
- 供职机构:东华大学计算机科学与技术学院更多>>
- 发文基金:上海市“科技创新行动计划”上海市科学技术发展基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生电子电信更多>>
- 一种面向临床领域时序知识图谱的链接预测模型被引量:23
- 2017年
- 知识图谱(knowledge graph)链接预测可以解决知识图谱中缺失信息的发现和还原,是目前知识图谱领域的研究热点.传统的知识图谱链接预测方法大多面向静态的数据,并不适用于具有动态变化特性的时序知识图谱.时序知识图谱广泛存在于不同领域中,以临床医学领域为例,糖尿病作为一种典型的慢性病,其病程是一个疾病缓慢发展演化的过程.因此,在临床医学时序知识图谱上进行临床意义的链接预测,比如预测糖尿病的并发症,则需要考虑糖尿病病程发展随时间变化的时序特性,这也为传统的知识图谱链接预测方法带来巨大挑战.为此,结合临床医学事实知识的时序特性,提出一种基于LSTM序列增量学习的临床领域时序知识图谱链接预测模型.该模型结合LSTM长短期记忆单元递归神经网络在序列学习上的优势,通过构建基于LSTM的序列增量学习层,以端到端的方式提取时序知识图谱中的三元组时序特征,从而实现对时序知识图谱的链接预测.通过在糖尿病时序知识图谱上的实验,验证了模型的高效性、可用性及稳定性.
- 陈德华殷苏娜乐嘉锦王梅潘乔朱立峰
- 面向数据开放共享的数据划分与组织方法
- 本发明提供了一种面向数据开放共享的数据划分与组织方法。本发明提供了一种在面向大数据的数据开放共享应用中通过分析数据分布的广度和深度模式,估计数据分布模式满足不同应用需求的价值关系,以此为基础对原始数据划分,生成新的用于共...
- 王梅乐嘉锦朱扬勇陈德华潘乔郝茜
- 一种中文病理文本结构化处理方法
- 本发明涉及一种中文病理文本结构化处理方法,包括以下步骤:从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息;对模板信息进行提取,包括短句切分和指标名提取;短句分类;对每个样本结合分类结果集合CLUS...
- 陈德华冯洁莹朱立峰乐嘉锦刘茜茜薛瑞东
- 文献传递
- 基于领域本体的乳腺超声检查报告结构化方法
- 本发明涉及一种基于领域本体的乳腺超声检查报告结构化方法,包括以下步骤:对乳腺超声报告进行预处理,得到文本描述块;对得到的文本描述块基于领域本体语义树获取分支子树路径;以自顶向下、广度优先的方式,生成乳腺超声语义子树;将生...
- 陈德华刘淑君乐嘉锦朱立峰董屹婕
- 一种Hadoop平台上面向数据字段的访问控制方法
- 本发明涉及一种Hadoop平台上面向数据字段的访问控制方法,包括以下步骤:步骤1、扩展原始上传文件命令,使其通过schema解析待上传文件,并将schema添加到HDFS文件的元信息中;步骤2、增加Hadoop命令中对字...
- 丁祥武张东辉乐嘉锦陈德华
- 基于海量搜索历史数据的用户兴趣模型被引量:3
- 2014年
- 针对互联网搜索引擎环境中,基于海量搜索历史数据分析用户兴趣的问题,提出一种改进的用户兴趣模型。该模型根据用户搜索的历史数据,结合向量空间模型(VSM)和TF-IDF算法,递归地回溯出用户兴趣权重列表。为解决用户兴趣变化和时间性能的问题,该模型引入时间遗忘机制进行动态更新,并在Hadoop分布式系统架构下利用Map Reduce分布式编程模型进行实现。实验结果表明,改进的用户兴趣模型的查准率和召回率都能达到50%,具有较好的可行性和可用性。
- 詹天晟陈德华乐嘉锦王梅
- 关键词:向量空间模型TF-IDFHADOOPREDUCE用户兴趣模型
- 一种基于旋转森林的甲状腺疾病分类方法被引量:1
- 2016年
- 甲状腺疾病是内分泌领域的常见疾病,准确识别不同类型的甲状腺疾病是临床医疗诊断中的首要问题。针对甲状腺检测指标数据,提出一种新的甲状腺疾病分类方法,该方法首先采用主成分分析法对数据集进行特征选择,降低数据维度,然后基于旋转森林集成分类算法实现分类。旋转森林算法使基分类器的差异性更加明显,进而提高分类器的精度,同时可以减少处理时间。实验中,同时分析了UCI标准数据集和真实临床医疗数据集,结果表明该方法的分类准确率分别可以达到96.28%和96.37%。
- 潘乔许腾陈德华徐光伟
- 关键词:甲状腺疾病主成分分析
- 面向大规模图数据的分布式并行聚类算法研究
- 图聚类作为一种重要的图数据挖掘技术,在许多实际应用中已得到广泛的关注.针对图数据日益普及、规模不断增大的现实,提出了一种高效的分布式并行图聚类算法,即MR-LSH算法.该算法是在MapReduce框架的基础上,通过对传统...
- 陈德华解维李悦
- 关键词:MAPREDUCE框架集群环境
- 文献传递
- 面向大规模图数据的分布式并行聚类算法研究
- 图聚类作为一种重要的图数据挖掘技术,在许多实际应用中已得到广泛的关注。针对图数据日益普及、规模不断增大的现实,提出了一种高效的分布式并行图聚类算法,即MR-LSH算法。该算法是在MapReduce框架的基础上,通过对传统...
- Chen Dehua陈德华Xie Wei解维Li Yue李悦
- 关键词:优化设计信息采集
- 一种基于Spark的分布式时态索引方法
- 2018年
- 基于Spark分布式计算平台提出一种分布式时态索引方法。该方法提出时态数据集的分段索引构造策略,对每一分段设计基于Spark的时态索引构建方法及基于Spark RDD的并行查询策略;根据时态查询所涉及的Spark RDD分区模式的不同,将其分为分区独立查询,跨区查询以及跨段查询,并分别针对不同模式的时态查询提出优化的辅助索引结构,提高查询效率;在基准数据上进行实验,验证了所提索引策略的实用性和高效性,同时表明所提方法对数据规模的有效自扩展性以及降低了集群硬件配置需求。
- 郑晓东王梅陈德华张碧莹
- 关键词:时态数据时态索引SPARK分布式