摘要:现有的视频描述生成方法提取的特征及特征组合的方式较为简单,导致模型丢失了部分与视频描述相关的重要语义 信息,限制了对视频内容的准确描述和理解。分析存在的不足,提出了一种基于增强全局-局部特征融合的视频描述生成方 法。首先采用不同特征提取器分别对视频片段提取局部特征和全局特征,为了建模不同级别特征(局部和全局)的相关性,利 用特征融合增强网络进行特征融合,丰富模型的特征信息。解码器使用的双向长短期记忆网络,并在其后加入重构网络,重 构经编码器处理得到的视频特征序列,最终经过长短期记忆网络生成视频的描述语句。在 MSVD 与 MSR-VTT 数据集上的 实验结果表明,提出的模型可以显著提高生成的描述语句的准确性。