诸云强 作品数:205 被引量:1,487 H指数:22 供职机构: 中国科学院地理科学与资源研究所 更多>> 发文基金: 国家自然科学基金 科技基础性工作专项 国家科技基础条件平台建设计划 更多>> 相关领域: 天文地球 自动化与计算机技术 环境科学与工程 文化科学 更多>>
多视角网页分类数据集构建及性能评估 2024年 网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%. 孙辰星 刘伟 卢彬 梁诗宇 诸云强 甘小莺关键词:网页分类 文本分类 数据挖掘 全要素旅游本体研究与模块化构建 被引量:5 2020年 互联网的海量旅游信息为旅游者提供了极大便利,同时信息的语义异构问题也对旅游者造成了困扰。旅游本体的研究对于解决旅游信息语义异构问题以及实现旅游信息一致化表达具有重要意义。该文设计了一种全要素旅游本体模型,系统分析旅游领域的研究对象,提出旅游信息的概念模型;在此基础上,设计了包含概念、属性、关系、实例四元组的全要素旅游本体模型。以山东省为例,在全要素旅游本体模型的指导下,采用模块化方法构建山东省旅游本体。实证研究发现,全要素旅游本体可为旅游本体的研究提供统一、可共享的本体模型,模块化的旅游本体构建方法可避免重复构建通用基础子本体,研究成果对旅游本体的研究与构建具有一定的参考价值。 赵硕 诸云强 宋佳 宋佳 李威蓉 孙凯 耿文广 王金颖关键词:本体 旅游 模块化 一种支持异构地学数据资源的检索方法及检索系统 本发明公开了一种支持异构地学数据资源的检索方法及系统,该方法包括建立索引的步骤和检索索引的步骤,该建立索引的步骤进一步包括:一索引配置子步骤,用于以地学数据资源元数据作为数据源进行索引参数配置;一索引建立子步骤,用于根据... 宋佳 诸云强 冯敏 杜佳 廖顺宝文献传递 不同滤波方法对GRACE反演西南岩溶区陆地水储量变化的影响 被引量:8 2019年 不同滤波方法反演陆地水储量变化的结果不同,但目前关于西南岩溶区的不同滤波方法之间的对比研究相对较少.利用Gauss 200 km、Fan 200 km、Han 200 km和DDK4四种滤波方法反演了西南岩溶区的陆地水储量变化,并采用尺度因子进行了校正.在空间分布上,Han和Fan滤波较Gauss滤波更为平滑,但损失的真实信号更多,Han滤波损失最为严重;DDK滤波在进行南北向滤波的同时更能保持原始信号的量级和形状.在时间序列上,4种滤波的陆地水储量距平(TWSA)年趋势分别为8.64、8.77、9.05和9.39 mm/a,周年振幅分别为90.19、94.47、112.92和89.34.不同滤波反演的陆地水储量变化的空间分布差异较大;4种滤波的周年相位差别不大,且由于尺度因子的影响,校正后的陆地水储量距平振幅大小顺序为Han>Fan>Gauss>DDK.对于研究区的陆地水储量变化反演,Fan滤波和DDK滤波较好. 张青全 潘云 宫辉力 郑龙群 诸云强关键词:GRACE 土地利用规划电子政务系统的设计与实现 被引量:3 2005年 本文在分析了电子政务的内涵和作用的基础上,阐述了建设土地利用规划电子政务系统的必要性。依据国土资源电子政务系统建设目标和规范,在MapGuide平台上应用办公自动化、GIS、Oracle数据库等技术,确定了系统的总体设计。完成了土地利用规划电子政务系统的建设,实现了规划和国土资源管理的公平、公开、公正和公信,促进了规划和国土资源管理的科学化和规范化,大大提高了土地利用规划工作的效率。 刘剑 杨国东 尹东彬 诸云强关键词:电子政务系统 土地利用规划 ORACLE数据库 MAPGUIDE 国土资源管理 办公自动化 “发展中国家科学与可持续发展大数据国际培训班”在印度举行 2017年 2017年3月17-19日,国际科学技术数据委员会(CODATA)发展中国家科学数据保藏与共享任务组(PASTD)、国际地理联合会、中国科学院地理科学与资源研究所与印度欧斯马尼亚大学(Osmania University)联合主办了“发展中国家科学与可持续发展大数据国际培训班”(The International Training workshop on Big Data for Science and Sustainability in Developing Countries)。 诸云强 R.B.Singh 王筱萱关键词:国际地理联合会 大数据 技术数据 科学数据 可持续发展 中国煤矿安全生产水平空间差异与影响因素 被引量:4 2022年 基于2001—2019年分省百万吨死亡率,利用泰尔指数、变异系数和地理探测器等对中国煤矿安全生产水平空间差异程度及其驱动因素展开定量化研究,为及时获取区域煤矿安全态势、提升煤矿事故精准预警与防范提供支持。结果显示:(1)依据百万吨死亡率可将中国煤矿安全生产水平分为南方区(川云渝贵湘鄂桂赣粤苏浙闽)、东北区(黑吉辽)、西北区(青新甘)、华北区(京冀鲁豫皖)和中北区(晋陕蒙宁)5个区域,各区煤矿安全水平依次升高。(2)煤矿安全水平总体差异经历了总体稳定且差异均衡期(2001—2007年)、总体及差异波动上升期(2008—2015年)、总体稳定但区间差异加大期(2016—2019年)3个发展阶段后仍保持缓慢增长态势,区内差异开始缩减但区间差异持续扩大。(3)影响五大区安全水平的因素各异,采掘环境对东北区、西北区和南方区影响大;供需情况和企业管理类指标的变化更易引起东北区、华北区和中北区安全水平变动;监察执法类指标对中北区以外的各区均具有较高的影响力;各区百万吨死亡率对经济环境均产生响应,但指标的影响系数处于中等水平。(4)监察执法、供需情况和经济环境类指标与其他类别指标普遍具有较强的非线性增强效应,通过调整监察执法类指标更易对安全水平变动产生效果。 周天墨 陈鹏飞 陈佳林 诸云强 王晓爽 祁彦民 李威蓉 孙凯 孙凯 程全英关键词:煤矿安全 影响因素 百万吨死亡率 城市交通韧性研究进展及未来发展趋势 被引量:2 2023年 交通韧性是指在极端条件下交通系统能够通过自身抵抗、减缓以及吸收的方式维持其系统基本功能和结构的能力,或者能够在合理的时间和成本内恢复原始平衡或者新平衡状态的能力。受全球增温、海平面上升以及快速城市化的影响,极端事件的风险日益增加,从而导致城市交通运输基础设施运营面临着严峻的挑战。在此背景下,如何衡量极端事件下城市交通韧性强度(包括不同极端天气事件强度对其强度的影响),如何监测其时空分布特征和演变趋势,以及多长时间交通运输系统能够恢复正常状态?针对这些问题,目前还缺乏有效的监测方法,尤其是缺乏气候变化对交通韧性影响的时空动态变化监测。因此,如何精准识别极端事件下城市交通韧性的状态,提升自然灾害交通防治水平亟待解决。而随着大数据挖掘技术和时空预测深度学习方法的发展,为重建城市交通韧性强度时空数据集,进而揭示历史极端事件影响下城市交通韧性强度时空演变特征、变化趋势以及影响机制提供了可能。论文对国内外近50年来交通韧性研究进行了梳理和概括,结合国内外交通韧性的相关研究成果对已有的研究中存在的不足进行了评述;并指出了气候变暖情况下交通韧性研究的重点领域和方向,旨在为今后开展交通韧性研究提供新的思路。 嵇涛 姚炎宏 黄鲜 诸云强 邓社军 于世军 廖华军关键词:气候变化 分布式地学数据共享平台设计与实现 能够共享分布异构的地学数据资源,提出一种分布式的地学数据共享模式.按照这一模式,地学数据共享平台按总中心——分中心二级结构进行构建.采用无数据集中管理、数据体分散储存的策略实现数据的共享.同时,将共享活动抽象为一系列的核... 诸云强 朱少春 冯敏 宋佳 刘润达关键词:SHARING METADATA INTEROPERATION 局部回归克里格在气温栅格化中的应用 被引量:5 2016年 气温是全球环境变化、农业、生态等研究领域的重要输入变量,气温栅格数据能有效地与其他空间数据进行叠加分析,目前主要通过空间插值获得.本文采用局部回归克里格(Local Regression Kriging)构建全国1981—2010年30年累年年均气温空间分布数据集,并与常规插值方法进行精度对比.插值结果与我国整体的气温分布趋势一致,同时也反映了典型区域气温的局部特征.西北地区受海拔高低起伏的影响,温度呈现出以青藏高原地区为中心,向外围逐渐升高的特点.交叉验证结果表明,充分考虑了气温空间异质性以及残差空间自相关性的邻域为50的局部回归克里格法插值精度相对最高,其均方根误差(RMSE)为1.788℃,平均绝对误差(MAE)为1.127℃,拟合优度R2为0.916 9. 郭春霞 栗忠魁 诸云强 孙伟