YOLOv10模型改进-Backbone改进-第60篇: YOLOv10改进策略【Backbone】| PVT Backbone替换
一、本文介绍本文记录的是利用PVTPyramid Vision Transformer作为Backbone改进YOLOv10的特征提取部分。PVT通过金字塔结构和空间缩减注意力实现高效的多尺度特征提取。二、PVT模块介绍2.1 设计出发点ViT缺乏多尺度特征提取能力PVT通过金字塔结构和空间缩减注意力同时兼顾全局建模和多尺度特征。2.2 模块结构PVT块空间缩减注意力减少注意力计算复杂度前馈网络非线性变换层次化设计多尺度特征输出三、PVT的实现代码importtorchimporttorch.nnasnnclassSpatialReductionAttention(nn.Module):def__init__(self,dim,num_heads4,sr_ratio1):super().__init__()self.num_headsnum_heads self.scale(dim//num_heads)**-0.5self.qnn.Linear(dim,dim)self.kvnn.Linear(dim,dim*2)self.projnn.Linear(dim,dim)self.sr_ratiosr_ratioifsr_ratio1:self.srnn.Conv2d(dim,dim,sr_ratio,sr_ratio)self.normnn.LayerNorm(dim)defforward(self,x,H,W):B,N,Cx.shape qself.q(x).reshape(B,N,self.num_heads,C//self.num_heads).permute(0,2,1,3)ifself.sr_ratio1:x_x.transpose(1,2).view(B,C,H,W)x_self.sr(x_).reshape(B,C,-1).transpose(1,2)x_self.norm(x_)kvself.kv(x_).reshape(B,-1,2,self.num_heads,C//self.num_heads).permute(2,0,3,1,4)else:kvself.kv(x).reshape(B,N,2,self.num_heads,C//self.num_heads).permute(2,0,3,1,4)k,vkv[0],kv[1]attn(q k.transpose(-2,-1))*self.scale attnattn.softmax(dim-1)x(attn v).transpose(1,2).reshape(B,N,C)returnself.proj(x)classPVTBasicLayer(nn.Module):def__init__(self,dim,num_heads,sr_ratio1):super().__init__()self.norm1nn.LayerNorm(dim)self.attnSpatialReductionAttention(dim,num_heads,sr_ratio)self.norm2nn.LayerNorm(dim)self.mlpnn.Sequential(nn.Linear(dim,dim*4),nn.GELU(),nn.Linear(dim*4,dim))defforward(self,x,H,W):xxself.attn(self.norm1(x),H,W)xxself.mlp(self.norm2(x))returnxclassPVT(nn.Module):def__init__(self,c13,c21024,embed_dims[64,128,256,512],num_heads[1,2,4,8],sr_ratios[8,4,2,1]):super().__init__()self.patch_embedsnn.ModuleList()self.patch_embeds.append(nn.Sequential(nn.Conv2d(c1,embed_dims[0],7,4,3),nn.LayerNorm(embed_dims[0])))foriinrange(1,4):self.patch_embeds.append(nn.Sequential(nn.Conv2d(embed_dims[i-1],embed_dims[i],3,2,1),nn.LayerNorm(embed_dims[i])))self.layersnn.ModuleList()foriinrange(4):self.layers.append(PVTBasicLayer(embed_dims[i],num_heads[i],sr_ratios[i]))self.final_convnn.Conv2d(embed_dims[-1],c2,1,biasFalse)defforward(self,x):Bx.shape[0]fori,embedinenumerate(self.patch_embeds):xembed(x)H,Wx.shape[2:]xx.flatten(2).transpose(1,2)xself.layers[i](x,H,W)ifi3:xx.transpose(1,2).reshape(B,-1,H,W)xx.transpose(1,2).reshape(B,-1,H,W)xself.final_conv(x)returnx四、创新模块将PVT作为Backbone集成到YOLOv10中# yolov10n_pvt.yamlbackbone:-[-1,1,PVT,[3,1024]]-[-1,1,SPPF,[1024,5]]五、预期结果模型mAP0.5mAP0.5:0.95参数量YOLOv10n52.3%27.9%2.7MYOLOv10n-PVT53.2%28.8%13.0M项目环境配置Python3.8.10PyTorch2.0.0CUDA11.8Ultralytics8.3.13

相关新闻

YOLOv10模型改进-Backbone改进-第59篇:YOLOv10改进策略【Backbone】| ShuffleNetV2 Backbone替换

YOLOv10模型改进-Backbone改进-第59篇:YOLOv10改进策略【Backbone】| ShuffleNetV2 Backbone替换

一、本文介绍 本文记录的是利用ShuffleNetV2作为Backbone改进YOLOv10的特征提取部分。ShuffleNetV2通过通道混洗和分组卷积,实现高效的特征提取。 二、ShuffleNetV2模块介绍 2.1 设计出发点 分组卷积会导致通道间信息隔离,通道混洗通过打乱通道顺序解决这…

2026/7/2 11:35:12阅读更多 →
【2026】最新版本Python 3.15 完整编译安装与环境配置手册

【2026】最新版本Python 3.15 完整编译安装与环境配置手册

一、版本基础 CPython 3.15 作为年度重大更新,围绕性能提速、语法简化、类型系统增强、跨平台兼容、多线程无 GIL五大方向重构,覆盖后端、数据分析、AI、自动化、仿真脚本全场景开发。 二、核心亮点(专业重点) 1. 运行时性能大…

2026/7/2 11:35:12阅读更多 →
计算机毕业设计之基于机器学习的商品评价分析系统的设计与实现

计算机毕业设计之基于机器学习的商品评价分析系统的设计与实现

本系统基于机器学习技术,利用Django框架、MySQL数据库、Python编程语言、Vue前端框架以及Spark大数据处理平台,设计和实现了一个商品评价分析系统。系统通过对海量商品评价数据进行深度挖掘和分析,自动识别和过滤虚假评论,为用户提…

2026/7/2 11:30:09阅读更多 →
rust语言学习笔记(指针六)Cell<T>(内部可变(非指针))

rust语言学习笔记(指针六)Cell<T>(内部可变(非指针))

允许你在拥有不可变引用(&T)的情况下修改内部数据,从而绕过 Rust 严格的借用规则限制。Rust 的默认规则是:‌要么有一个可变引用 (&mut T),要么有多个不可变引用 (&T),但不能同时存在。 6.1 关…

2026/7/2 12:55:26阅读更多 →
终极BetterNCM安装指南:3分钟完成网易云插件自动化部署

终极BetterNCM安装指南:3分钟完成网易云插件自动化部署

终极BetterNCM安装指南:3分钟完成网易云插件自动化部署 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 还在为网易云音乐插件安装的繁琐流程而头疼吗?每次手动查…

2026/7/2 12:55:26阅读更多 →
家用高压豆浆机推荐哪种好用?优先看材质还是功能

家用高压豆浆机推荐哪种好用?优先看材质还是功能

在早餐桌上升起一碗热气腾腾的豆浆,是许多家庭向往的健康生活场景。但市面上的豆浆机、破壁机、豆奶机品类繁多,从几十元的入门款到上千元的高端款,功能参数让人眼花缭乱。很多人在选购时陷入两难:到底该优先看材质,还…

2026/7/2 12:55:26阅读更多 →
软考机考全流程压力测试实录(模拟断网/断电/进程崩溃):20年命题组技术顾问独家复盘,仅开放给考前最后一次模考人群

软考机考全流程压力测试实录(模拟断网/断电/进程崩溃):20年命题组技术顾问独家复盘,仅开放给考前最后一次模考人群

更多请点击: https://codechina.net 第一章:软考机考全流程压力测试实录(模拟断网/断电/进程崩溃):20年命题组技术顾问独家复盘,仅开放给考前最后一次模考人群 真实考场环境下的三重故障注入策略 为逼近极…

2026/7/2 12:55:26阅读更多 →
基于LARA-R6001与PIC18F86J16的VoLTE通信平台开发指南

基于LARA-R6001与PIC18F86J16的VoLTE通信平台开发指南

1. 4G LTE VoLTE平台开发概述 在物联网和移动通信技术快速发展的今天,构建自主可控的4G LTE VoLTE通信平台成为许多开发者的实际需求。LARA-R6001作为一款成熟的4G LTE模块,配合PIC18F86J16微控制器的强大处理能力,可以搭建出性能稳定、功能完…

2026/7/2 12:55:26阅读更多 →
TranslucentTB终极指南:彻底释放Windows任务栏的美学潜能

TranslucentTB终极指南:彻底释放Windows任务栏的美学潜能

TranslucentTB终极指南:彻底释放Windows任务栏的美学潜能 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 你是否曾对Windows任…

2026/7/2 12:50:25阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 12:10:34阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/2 12:10:34阅读更多 →
塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 想在《塞尔达传说:旷野之息…

2026/7/2 0:03:01阅读更多 →
告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

在本地开发环境使用云厂商 CLI 时,传统的 AccessKey(AK)方式需要手动创建、下载和保管密钥,不仅繁琐,还存在泄漏风险。其实,主流云平台都已提供基于 OAuth 2.0 的免密认证方案,让开发者可以通过浏览器登录一次性完成授权,CLI 自动管理临时凭证的刷新,兼顾了便利与安全…

2026/7/2 0:03:01阅读更多 →
基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

1. 项目背景与核心价值在嵌入式系统开发领域,高精度定位与导航一直是极具挑战性的技术方向。传统方案往往面临成本、精度和实时性难以兼顾的困境。这个项目通过13DOF(13自由度)传感器组合与PIC32MZ2048EFH100高性能MCU的协同工作,…

2026/7/2 0:03:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/2 0:33:58阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/2 1:32:11阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/2 1:50:13阅读更多 →