孙翀 作品数:14 被引量:24 H指数:3 供职机构: 中南民族大学计算机科学学院 更多>> 发文基金: 中央高校基本科研业务费专项资金 国家科技支撑计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
一种基于深度学习的半监督分层模型 被引量:1 2020年 依照图像识别出的对象标签,通过层次结构来分类图像集是图像自动化分类的重要研究问题之一。现有的方法实现了对象标签已知情况下的层次结构构建,仅存在少量方法考虑部分对象标签未知的影响。本文对经典方法进行了扩展和优化,实现了存在部分对象标签未知情况下的层次结构构建和更新。利用卷积神经网络(Convolutional neural network,CNN)对图像编码,提出半监督学习方法,根据传统算法构建类标签已知图像集的层次结构,通过周期性相似性比较,对层次结构中标签未知图像进行聚类,实现对半监督分层模型(Semi-supervised layer-wise model,SLM)的构建。本文采用了真实公开的数据集,实验结果表明,该方法能够有效地实现层次结构的构建和更新,并且能够在较小规模的数据集上取得好的预测分类效果。 王江晴 张蕾 孙翀 孙翀 周玮瑜 帖军关键词:卷积神经网络 图像分类 聚类 基于上下文语义的社交网络用户人格预测 被引量:1 2020年 在利用文本信息预测用户大五人格的普遍方法中,对于文本特征的提取未充分考虑上下文语义信息,存在对语义特征提取不够精准的问题.针对该问题,提出了一种结合深度学习与上下文语义的方法:在TF-IDF中加入单词的上下文语义信息来计算单词权值,然后结合基于文本的卷积神经网络模型和由单词权值构成的上下文语义特征向量进行用户大五人格预测.实验数据使用Facebook中myPersonality应用的用户社交记录,实验结果表明:将文本上下文语义加入到深度学习预测模型后,人格预测的准确率有所提高. 王江晴 陈思敏 刘晶 孙翀 毕建权关键词:大五人格 社交网络 一种具有保序性的带权多标记学习算法 被引量:1 2020年 多标记学习是机器学习研究领域的热点问题之一.经典算法仅考虑了标记间的单一关系(序或权重),这使得在部分场景中多标记学习无法应用.为解决该问题,一种具有保序性的带权多标记学习算法WMLARP(Weighted Multi-label Learning Algorithm with Rank Preservation)被提出.通过在学习过程中引入“相关-无关”、“相关-相关”两种标记对来度量标记间的序和相对权重,WMLARP对基于SVM的多标记学习算法进行了扩展和优化.实验结果表明:WMLARP可充分挖掘标记间的相关性,有效提高分类模型的质量. 宋中山 周玮瑜 孙翀 艾勇 刘越关键词:多标记学习 一种基于聚类的图卷积多示例学习算法 被引量:1 2021年 基于图结构的多示例学习可用于解决挖掘包中示例间相关性问题.然而,现有的方法大多随机选择包中示例构建图结构,忽略了包中具有代表性示例对图结构的影响;同时都是间接在包图结构上建立分类器,造成了模型运行效率低下的问题.针对上述问题,提出了一种基于聚类的图卷积多示例学习算法MIL-GCC,首先通过聚类方法获取每个包中的超示例,作为包图结构中的节点;然后通过挖掘超示例间关系构建包图的边,确定包图结构;最后利用图卷积对包图节点重要度分数进行学习,直接在包图结构上建立分类器.实验表明:MIL-GCC可以充分表示包图结构,有效提高分类模型的质量. 王江晴 毕建权 帖军 孙翀 艾勇关键词:多示例学习 聚类 一种社交网络环境下并行短文本查询算法 被引量:2 2018年 随着移动社交网络的迅速发展,如何从海量带有时间属性和地理位置属性的短文本信息中快速查询到有效信息具有重要意义.社交网络环境下传统短文本查询算法忽略时间维度,并且在海量数据下无法满足用户快速响应的需求.针对以上问题,提出一种社交网络环境下并行短文本查询算法.提出的算法设计了基于MapReduce模型下的查询框架,该框架使用了基于滑动窗口下的多版本时空索引(MVSTR-tree),保证了查询过程中融合了时间和空间属性,实现了对海量数据高效查询的目标.最后,通过真实数据集的实验证明该算法能有效缩短查询时间. 雷建云 彭媛 孙翀 帖军关键词:社交网络 并行查询 NVSA:一种具有可变节点值的查询图搜索算法 被引量:4 2018年 图模型作为一种重要的数据结构,常被应用于众多不同领域并被广泛研究。随着图数据规模的日益增大,大图上的子图搜索问题变得极为重要。然而,目前已有的研究成果在大图上的执行效率并不太理想,而且没有考虑查询图上存在节点值可变的情况。为解决具有可变节点值的查询图在大图上的搜索问题,本文提出基于双索引的NVSA算法。首先通过合并相邻同类点构建CP索引和Vin索引,然后根据索引结构优化加速子图搜索算法。真实数据集上的实验表明,NVSA算法具有有效性和高效性。 胡一然 宋中山 孙翀 郑禄关键词:图搜索 MOOB:一种改进的基于Bandit模型的推荐算法 被引量:1 2018年 提出了一种基于置信区间上界算法的多目标优化推荐算法.该算法可以在保证预测精准度的基础上有效地避免马太效应,并提高推荐系统对长尾物品的挖掘能力.采用Ya Hoo的新闻推荐数据集对算法进行了实验和评价,实验结果表明:多目标优化推荐算法能够在预测准确率较高的情况下,有效地解决长尾物品发掘问题,避免马太效应,提高推荐系统的精度和广度. 帖军 孙荣苑 孙翀 郑禄关键词:马太效应 多目标优化 用于多表连接优化的深度强化学习嵌入表示 被引量:1 2023年 针对数据库查询优化中多表连接优化问题,任务是找到一个合适的连接顺序使查询执行计划最优,为此提出一种查询语句的嵌入表示方法SmartEncoder。通过优化查询语句中多表连接的嵌入表示信息,得到更丰富的关于连接的信息,将多表连接顺序选择优化建模为深度强化学习问题,根据动作的概率分布选择连接,从过去的经验中学习,生成更好的查询执行计划。在Join Order Benchmark数据集上的实验结果表明,SmartEncoder能够有效提高查询的效率。 王江晴 王雪言 孙翀 孙翀 帖军关键词:查询优化 查询效率 一种基于频繁项集挖掘的推荐算法 被引量:1 2019年 协同过滤是推荐系统中应用最成功的技术之一,现有基于项目的协同过滤算法在计算项目相似度时过度依赖用户对项目的评分数据,没有考虑项目间内在的关联性,导致推荐质量不高.为了全面客观地评估项目相似度,提出了一种基于频繁项集挖掘的推荐算法(BFIM).该算法提出将频繁项集作用于相似度计算中,可以提高相似度计算的准确性,进而提升推荐算法的推荐质量.实验结果表明:提出的改进算法较对比算法在公开数据集上能取得更好的推荐效果. 帖军 吕琴艳 孙翀 王江晴 尹帆关键词:协同过滤 频繁项集 相似度 一种基于数据挖掘的制造业工厂设备布局方法 被引量:3 2017年 针对经典的求解单行直线型布局算法中需要大量参数、要求设备等概率使用的限制,提出了一种基于数据挖掘的制造业工厂设备布局方法 FMDM.FMDM采用数据挖掘Apriori算法对已有的生产调度计划或柔性作业车间调度问题的调度解进行挖掘,根据贪心方法在频繁项的基础上获得的初步布局方案,给出了将候选方案进行筛选得到最终方案的算法CACULATE_EDIT_DISTANCE.实验结果表明:该方法可对无参数的初建车间进行有效的初步布局,不限制设备的使用概率,能实现多工件共享设备,多工件并发生产,且FMDM结果作为经典算法的输入可提高经典算法的收敛速度. 宋中山 陈雯颖 孙翀 帖军关键词:数据挖掘 APRIORI算法 贪心算法