植物电子病历(EMR)以结构化和非结构化的形式记录了大量关于疾病症状、环境特征以及诊断开方的信息,为病害的智能诊断提供了优质知识来源,但是其样本量少、公开数据集缺乏和多种类型数据并存的特点给相关研究带来困难。根据植物EMR多类型数据混合的特点,提出了一种基于BERT-MPL数据融合与注意力机制优化的作物病害诊断模型(BERT-MPL data fusion model based on attention mechanism,BM-Att)。首先采用BERT预训练语言模型抽取电子病历中非结构化部分的文本语义特征;其次通过one-hot编码和多层感知机(MLP)对结构化数据进行编码和向量维度的扩增;最后在特征融合阶段采用注意力机制强调关键特征,利用多层全连接层实现病害诊断。构建了番茄、黄瓜、生菜和西瓜4种作物的15种病害数据集验证模型的效果并进行消融实验,并且对比了CNN、RCNN、AttRNN、FastText、Transformer、BERT和ERNIE等处理文本数据的常见模型,以及BERT-ALEX、BERT-1dCNN、BERT-1dLSTM、BERT-1dAttLSTM、BERT-MLP、ERNIE-ALEX、ERNIE-1dCNN、ERNIE-1dLSTM、ERNIE-1dAttLSTM、ERNIE-MLP等不同数据融合策略。结果表明,BM-Att取得最优结果,在测试集的准确率、精确率、召回率和F1值宏平均值分别达到95.82%、96.38%、95.48%和95.85%,能够实现作物病害的有效诊断。在特征融合阶段添加注意力机制的策略将模型F1值宏平均值提高1.47个百分点,显著提升了模型对生菜霜霉病、西瓜线虫等小样本病害的分类效果。该研究可为电子病历数据挖掘及实现智能辅助病害诊断提供参考。