电子科技大学王世森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于时空分组注意力机制的第一视角视频描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116246211B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310249523.9,技术领域涉及:G06F16/783;该发明授权一种基于时空分组注意力机制的第一视角视频描述生成方法是由王世森;李宏亮;何乃宇;周毓轩;谢晶晶;梁悦;孟凡满;吴庆波;许林峰;潘力立设计研发完成,并于2023-03-15向国家知识产权局提交的专利申请。
本一种基于时空分组注意力机制的第一视角视频描述生成方法在说明书摘要公布了:本发明提供一种基于时空分组注意力机制的第一视角视频描述生成方法,对输入的第一视角视频提取第一视角视频的特征谱作为区域特征;位置编码模块输出区域特征对应的位置编码;再将区域特征加上其位置编码的结果来更新区域特征;空间分组注意力模块将区域特征高维度和宽维度合并为空间维度,再对空间维度上的全部特征计算两次分组注意力以充分建模所有特征之间在空间维度上的交互关系;之后,进行空间和时间维度的交换,时间分组注意力模块对时间维度上的全部特征计算两次分组注意力并输出,再在空间维度上求平均得到第一视角视频特征编码,为解码器提供有更多时空信息的视频特征,适应第一视角视频存在的抖动和帧间变化,从而提高描述语句的质量。
本发明授权一种基于时空分组注意力机制的第一视角视频描述生成方法在权利要求书中公布了:1.一种基于时空分组注意力机制的第一视角视频描述生成方法,其特征在于,包括以下步骤: 对输入的第一视角视频均匀下采样得到关键帧,并将每个关键帧缩所放至设定尺寸后输入至预训练的ResNet模型与位置编码模块; ResNet输出其最后一层卷积的特征谱来组成第一视角视频的区域特征;位置编码模块输出区域特征对应的位置编码;再将区域特征加上其位置编码的结果来更新区域特征,更新后的区域特征输入至空间分组注意力模块; 空间分组注意力模块接收输入的区域特征,将区域特征高维度和宽维度合并为空间维度,再对空间维度上的全部特征计算两次分组注意力,从而完成区域特征在空间上的信息交互;空间分组注意力模块输出完成了空间上的信息交互的区域特征; 对空间分组注意力模块输出的区域特征进行空间和时间维度的交换,并将完成空间和时间维度的交换的区域特征输出至时间分组注意力模块; 时间分组注意力模块接收输入的区域特征,对时间维度上的全部特征计算两次分组注意力,从而完成区域特征在时间上的信息交互;时间分组注意力模块输出完成了时间上的信息交互的区域特征; 对时间分组注意力模块输出的区域特征在空间维度上求平均得到第一视角视频特征的编码; 第一视角视频特征的编码输入解码器生成关于视频内容的单词序列,从而生成视频描述句子; 空间分组注意力模块和时间分组注意力模块的结构相同,均包括k-means模块、多头注意力模块、全连接层和激活函数GELU层和层归一化模块; 对于输入的大小为ND的视频特征X,其中N表示特征的数量,D表示每个特征的维度;按照预先设置的分组数g,k-means模块将输入视频特征X聚合为g组,得到大小为gD的分组中心,多头注意力模块将输入特征作为查询Q,作为键K和值V来计算他们的多头注意力从而更新视频特征,之后更新视频特征通过一层全连接层和激活函数GELU层进行非线性化,非线性化的视频特征采用残差结构加上原始输入的视频特征X,相加后的视频特征最后经过层归一化模块处理后输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励