李菲菲 作品数:36 被引量:133 H指数:7 供职机构: 上海理工大学光电信息与计算机工程学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 更多>>
一种基于Transformer的伪装目标实例分割方法 2024年 本文研究主要针对伪装复杂背景下的图像进行实例分割.由于分割对象的伪装性以及缺少大规模训练集来支撑模型训练,这对于复杂背景下的实例对象分割构成了巨大挑战.受SOTR(Segmenting Objects with Transformer)的启发下,本文设计了一种方法框架,以解决动物野生环境和其他各类复杂伪装背景下的实例分割问题.相较于原始模型在特征目标的检测表现效果不佳,以及分割掩码存在上下文信息丢失的问题,本文提出的框架主要采用以下方法:引入特定的上下文特征金字塔提取网络CEM-FPN,以解决在高分辨率图像与感受野之间的矛盾.具体而言,高分辨率图像需要更大的感受野,但大感受野会导致小目标的检测误判为背景.在多层级融合模块加入通道空间注意力模块(CS Module),以提升对不同尺度上的各个实例对象的关注度,从而提高原型掩码的质量.实验结果表明,本文方法相较于原模型在COD10K-Test数据集上提升了4.1%的精确度,并在NC4K-Test数据集上提升了4.5%的精确度. 单伟 王亚刚 管旭 赵开 李菲菲关键词:TRANSFORMER 图像分割 端到端 基于深度卷积特征的场景全局与局部表示方法 被引量:3 2022年 场景识别是计算机视觉研究中的一项基本任务。与图像分类不同,场景识别需要综合考虑场景的背景信息、局部场景特征以及物体特征等因素,导致经典卷积神经网络在场景识别上性能欠佳。为解决此问题,文中提出了一种基于深度卷积特征的场景全局与局部表示方法。此方法对场景图片的卷积特征进行变换从而为每张图片生成一个综合的特征表示。使用CAM获取局部关键区域,利用LSTM对局部区域的卷积特征进行编码形成场景图片的局部表示;通过注意力机制融合场景特征与物体特征形成场景图片的全局表示。最后,在MIT indoor 67场景识别数据集上进行实验,结果显示采用文中所提方法取得了87.59%的识别准确度。 林潮威 李菲菲 陈虬关键词:卷积神经网络 端到端网络 基于三维卷积和哈希方法的视频检索算法 被引量:1 2022年 视频信息检索与其他多媒体检索的最大不同在于视频信息量较大,因此进行视频间相似度计算时的计算量较大。此外,对视频特征的提取中常常忽略视频帧之间的时间相关性,从而导致特征提取不充分,影响视频检索的精度。为此,文中提出基于三维卷积和哈希方法的视频检索方法。该方法构建了一个端到端的框架,使用三维卷积神经网络来提取视频中代表帧的特征,并将视频特征映射到低维的汉明空间中去,在汉明空间计算相似度。在两个视频数据集下的实验结果表明,相较于当前最新的视频检索算法,文中所提方法在精度上有较大的提升。 陈汗青 李菲菲 陈虬关键词:视频检索 哈希方法 特征降维 相似度匹配 一种基于改进条件生成式对抗网络的人脸表情生成方法 被引量:2 2020年 人脸表情生成一直都是一项具有挑战性的工作.现有的方法通常将深度生成网络和面部特征相结合来完成这项任务.然而,同一张人脸的面部表情不仅微妙,而且数不胜数.如何在保持人脸身份信息不变的前提下,利用人脸特征准确地生成目标表情仍然是一个有待解决的问题.本文利用人脸特征点来描述不同的表情形状,并以此作为生成目标表情的引导条件.我们通过对Pix2Pix模型结构的改进,实现了高质量人脸表情的生成.同时,为了引导连续人脸表情的生成,我们使用变分自动编码器对人脸形状进行控制.在两个公开的数据集CK+、Oulu-CASIA上,我们评估并验证了模型在任意人脸表情转换、人脸表情移除、人脸表情生成、连续人脸表情生成等任务上的可行性和有效性. 王先先 李菲菲 陈虬基于深度迁移学习与多尺度特征融合的场景识别方法 2023年 卷积神经网络(Convolutional Neural Networks,CNN)在场景识别领域取得了较好的研究成果,但该方法并未充分考虑到场景的特殊性。同类场景图像由于采样时的尺度、视角以及背景的不同而具有类内差异性,存在于异类场景间的共有物体又使异类场景图像间具有一定的相似性。考虑到不同尺度大小的场景图像也会影响其中物体的大小,文中提出一种基于深度迁移学习与多尺度特征融合的场景识别方法。首先,使用迁移学习将在Places数据集上预训练出的网络参数迁移到CNN模型中,然后微调并再次训练网络,降低训练成本。随后,将从类激活图中获取的多尺度图像块送入CNN进行特征提取,并融合得到特征向量,使最终得到的场景图像特征更丰富。在SUN397数据集上的实验结果表明,与其它基于CNN算法相比,文中提出的算法提高了场景识别的准确度。 王桥 胡春燕 李菲菲关键词:卷积神经网络 多尺度 支持向量机 基于迁移学习与权重支持向量机的图像多标签标注算法 被引量:5 2020年 为解决图像的多标签自动标注中标签不平衡性的问题,提出了一种基于迁移学习与权重支持向量机的图像自动标注方法。为了解决所选数据集规模较小无法训练出最优的卷积神经网络的问题,文中采用迁移学习的方法,将通过Imagenet数据集训练出的Alexnet的参数迁移到文中所用的卷积神经网络模型中,并对最后一层全连接层进行微调,利用多标签分类多合页损失函数构成多分类的支持向量机。最后,文中对低频标签进行权重排序以得到图像的多标签标注结果。在Corel-5k、Esp-Game和IAPR-TC12共3个数据集上进行了实验,权重支持向量机获得的平均召回率分别提升了10%、9%和6%,低频标签对其平均精确率均提升了12%。实验结果表明,基于迁移学习的权重支持向量机的图像多标签标注方法可在有效提高数据集的召回率的同时提升低频标签的平均精确度。 陈磊 李菲菲 陈虬基于Co-Teaching的噪声标签深度学习 2024年 大规模数据在人为标记时易出现标记误差,导致数据集存在噪声标签,影响深度神经网络模型的泛化。Co-teaching等现行研究方法中的样本选择机制易使噪声样本流入被选的干净标签样本子集,在训练中难以较好地控制深度神经网络模型对被选干净样本子集的拟合。因此,文中提出一个基于Co-teaching改进的新算法。该方法通过增加两个正则化损失来分别避免模型过于信任某单一类别和陷入局部最优解中。此外,引入大学习率衰减训练方法使模型在训练初期更倾向学习干净标签样本特征以得到较好的模型参数。与Co-teaching结果相比,文中模型在20%和50%对称噪声以及45%非对称噪声环境下,在MNIST、CIFAR-10合成噪声数据集及Animal10N现实数据集上的性能均取得了提升。 夏强强 李菲菲关键词:图像分类 学习率 一种基于特征融合的Transformer目标跟踪算法 2025年 近年来,基于深度学习的目标跟踪网络取得了显著的进展.这些网络主要采用两种类型的框架:双流双阶段框架和单流单阶段框架.然而,前者忽视了在特征提取过程中的信息交互,后者则受限于骨干网络自身的局限性.因此,本文采用独立骨干网络来直接构建跟踪器,并设计了一种轻量化的多尺度特征融合架构,以较低的计算成本增强了网络对多尺度信息的感知能力;同时,引入递归门控卷积作为特征学习单元,以自适应高阶空间交互实现了网络对特征的深层挖掘;此外,本文使用DropMAE预训练模型来进行网络初始化,以提升网络的泛化能力.实验结果表明,所提出的目标跟踪网络在多个大型跟踪数据集基准上都表现出优异的性能,并能以78.4 FPS的速度进行实时跟踪. 管旭 胡春燕 李菲菲关键词:视觉目标跟踪 基于复合特征及深度学习的人群行为识别算法 被引量:8 2019年 分析人群行为的目的是更好地分析与管理人群运动的状态与趋势。针对人群行为的两种特征信息,提出了一种基于深度学习的人群行为识别方法。先将人群作为主要对象,通过前景提取方法来提取人群静态信息,利用人群运动的变化获取人群动态信息,借助卷积神经网络(CNN)模型学习这两种不同的人群行为特征,再综合这两种特征来分析常见的人群行为。同时,人群数据提取位置与间隔是影响人群行为分析的重要因素。实验结果表明,这两种人群特征能更好地描述空间维度上的人群状态和时间维度上的人群变化,合理的数据位置与数据间隔可以有效地提高人群信息的表达能力。最后将提出的方法与其他人群行为分析方法进行比较,定量与定性的实验结果验证了所提方法的有效性,同时也表明了所提方法能得到更优的混淆矩阵和更高的准确度。 袁亚军 李菲菲 陈虬关键词:动态特征 CNN 数据提取 基于元学习和神经架构搜索的半监督医学图像分割方法 2024年 多数医学图像分割方法主要在相同或者相似医疗数据领域进行训练和评估,意味其需要大量像素级别的标注。但这些模型在领域分布外的数据集上面临挑战,被称为“域偏移”问题。通常使用固定的U形分割架构解决该问题,导致其无法更好地适应特定分割任务。文中提出了一种基于梯度的元学习与神经架构搜索方法,可以根据特定任务调整分割网络以实现良好的性能并且拥有良好的泛化能力。该方法主要使用特定任务进行架构搜索模块来进一步提升分割效果,再使用基于梯度的元学习训练算法提升泛化能力。在公共数据集M&Ms上,在5%标签数据下,其Dice和Hausdorff distance分别为79.62%、15.38%。在2%标签数据下,其Dice和Hausdorff distance分别为74.03%、17.05%。与其他主流方法相比,文中所提方法拥有更好的泛化能力。 于智洪 李菲菲关键词:医学图像分割 元学习 半监督学习