二维 RPE 如何构造?#
我们直接来看 Swin 在窗口注意力中使用的公式公式本身在形式上和 T5 是完全相同的关键在于偏置矩阵 的构造上。我们分点来展开2.1 直接将 RPE 推广到二维#我们先来看看最直接的方法对于一个 的窗口直接设计 其中 表示窗口内第 个 patch 和第 个 patch 之间的偏置值。我们用一个简单的例子来演示为什么是 假设窗口大小 那么窗口就是现在每个 token 都要和另外所有 token 建立关系。那么 计算的注意力得分矩阵形状就是这样的偏置矩阵必须和注意力矩阵一一对应。所以 。这种方法当然是可以跑通的但我们要考虑二维带来的参数问题如果直接学习一个 的参数矩阵那每个注意力头就得维护 个参数。一个 Swin 有多个头和多个层累计下来参数巨大。因此 Swin 自然有对应的改进。2.2 空间关系的平移不变性#在 NLP 中我们只针对每种相对位置设计偏置但是在上面方案里你会发现直接推广会带来很多无意义的参数核心是因为在二维数据中相对逻辑更加凸显窗口内大量位置对其实拥有相同的相对偏移。比如patch (0,0) 和 (1,0) 之间的偏移是 而 patch (2,0) 和 (3,0) 之间的偏移同样是 。它们本质上描述的是同一种空间关系理应共享同一个偏置值。于是 Swin 的做法是推广相对逻辑不直接学习 而是学习一个小得多的偏置表再通过二维索引从中查值。3. 紧凑偏置表与查表逻辑#3.1 二维相对位置的计算#首先对于一个 的窗口给每个位置一个坐标 显然对于任意两个 patch 二维相对偏移是那么 的取值范围就是 一共 种可能。同理这部分的计算逻辑和 T5 是完全相同的。现在我们知道了所有可能的 组合一共有 种也就是说我们只需要一个 的偏置表就能覆盖窗口内所有可能的位置关系。这就是 Swin 的紧凑偏置表 建表本身的逻辑到此结束但现在还有一个小问题和 大小不一对于每组注意力计算我要如何查表注入相应偏置3.2 查表过程#其实这步可以理解为如何将 内的值映射到总公式里的 中首先前面我们已经知道了因此真正参与 Attention 计算的偏置矩阵 也必须是 。但我们刚刚学习的紧凑偏置表只有不难理解为了让二者适配Swin 的设计是这样的对于 Attention Matrix 中的每一个元素都先计算两个 patch 的相对位移再去 中查对应 bias。展开来说 中的每一个元素本质上都对应“一对 patch 的关系”而每一对 patch 都有自己的 因此我们可以计算相对位移实现查表取值这就实现了相同相对位移的 patch 对共享同一个偏置。不过这在实现中还有一个问题数组索引没有负数负偏移并不能和其索引直接对应。而 因此 Swin 会先做一次平移去寻找正确索引现在于是查表过程就变成字母还是有些抽象我们再举一个实例设 那么 patch 网格可以就是此时 因此 如果当前 patch 为 它去关注 那么现在我们需要查显然数组索引不能为负数。所以进行平移于是原本的 就被平移成 这里可能容易疑惑的一点是中存储的并不是“偏移坐标本身”而是“对应相对位移的偏移参数”。展开来说数学意义上的 会被映射到数组索引因此 实际存储的就是相对位移为 时对应的偏置。这样所有原本可能为负数的二维位移都被映射到了合法数组索引,可以稳定完成查表。最终所有 patch 两两之间都会完成一次查表从而动态构造出完整的偏置矩阵随后即可完成二维相对位置信息的注入。值得一提的是在具体实现中二维紧凑表会被展平成一维以类似“编号”的逻辑取值根本逻辑没变明白即可。3.3 参数对比#来看看两种方式的参数对比方式Swin 默认暴力直接法Swin 紧凑法压缩比约 14 倍约 53 倍很明显随着窗口增大紧凑表的优势会更加明显。

相关新闻

Interceptor键盘驱动封装库深度解析:实现原理与性能优化指南

Interceptor键盘驱动封装库深度解析:实现原理与性能优化指南

Interceptor键盘驱动封装库深度解析:实现原理与性能优化指南 【免费下载链接】Interceptor C# wrapper for a Windows keyboard driver. Can simulate keystrokes and mouse clicks in protected areas like the Windows logon screen (and yes, even in games). Wr…

2026/6/28 9:38:40阅读更多 →
Codex CLI 完全使用指南:从入门到精通

Codex CLI 完全使用指南:从入门到精通

Codex CLI 简介 1.1 什么是 Codex CLI? 定位与 Claude Code 一样。Codex CLI 是由 OpenAI 开发的开源系统级 AI 助手,使用 Rust 语言编写,具有极高的性能和效率。它可以在终端中读取、修改和运行代码,是一个真正意义上的 AI Agent。 核心…

2026/6/28 9:33:39阅读更多 →
如何用Interceptor实现Windows高级输入模拟:终极C键盘驱动封装指南

如何用Interceptor实现Windows高级输入模拟:终极C键盘驱动封装指南

如何用Interceptor实现Windows高级输入模拟:终极C#键盘驱动封装指南 【免费下载链接】Interceptor C# wrapper for a Windows keyboard driver. Can simulate keystrokes and mouse clicks in protected areas like the Windows logon screen (and yes, even in gam…

2026/6/28 9:33:39阅读更多 →
深度实战:如何用dcm2niix解决医学影像数据转换的三大核心痛点

深度实战:如何用dcm2niix解决医学影像数据转换的三大核心痛点

深度实战:如何用dcm2niix解决医学影像数据转换的三大核心痛点 【免费下载链接】dcm2niix dcm2nii DICOM to NIfTI converter: compiled versions available from NITRC 项目地址: https://gitcode.com/gh_mirrors/dc/dcm2niix 面对海量DICOM医学影像数据&…

2026/6/28 11:03:46阅读更多 →
如何快速掌握CyberChef:免费离线数据处理工具的完整指南

如何快速掌握CyberChef:免费离线数据处理工具的完整指南

如何快速掌握CyberChef:免费离线数据处理工具的完整指南 【免费下载链接】CyberChef The Cyber Swiss Army Knife - a web app for encryption, encoding, compression and data analysis 项目地址: https://gitcode.com/GitHub_Trending/cy/CyberChef 在网络…

2026/6/28 11:03:46阅读更多 →
【信息系统项目管理师论文通关指南】:20年阅卷专家亲授5大高频扣分点与满分结构模板

【信息系统项目管理师论文通关指南】:20年阅卷专家亲授5大高频扣分点与满分结构模板

更多请点击: https://kaifayun.com 第一章:信息系统项目管理师论文写作概述 信息系统项目管理师(高级)考试中的论文科目是理论与实践深度结合的关键环节,其核心目标在于检验考生对项目管理知识体系的理解深度、实际应…

2026/6/28 11:03:46阅读更多 →
PKHeX-Plugins深度解析:宝可梦数据自动化合法化技术指南

PKHeX-Plugins深度解析:宝可梦数据自动化合法化技术指南

PKHeX-Plugins深度解析:宝可梦数据自动化合法化技术指南 【免费下载链接】PKHeX-Plugins Plugins for PKHeX 项目地址: https://gitcode.com/gh_mirrors/pk/PKHeX-Plugins PKHeX-Plugins是一款基于PKHeX框架的宝可梦数据管理插件集,专注于自动化合…

2026/6/28 11:03:46阅读更多 →
【系统架构设计师论文通关指南】:20年阅卷专家亲授5大高频扣分点与3天速成框架模板

【系统架构设计师论文通关指南】:20年阅卷专家亲授5大高频扣分点与3天速成框架模板

更多请点击: https://codechina.net 第一章:系统架构设计师论文核心定位与命题逻辑 系统架构设计师论文并非技术堆砌或项目复述,而是以“架构决策”为锚点、以“权衡过程”为主线的高阶思辨表达。其核心定位在于展现考生在复杂约束下识别关键…

2026/6/28 11:03:46阅读更多 →
边界损失:解决医学图像分割不平衡问题的5个关键优势

边界损失:解决医学图像分割不平衡问题的5个关键优势

边界损失:解决医学图像分割不平衡问题的5个关键优势 【免费下载链接】boundary-loss Official code for "Boundary loss for highly unbalanced segmentation", runner-up for best paper award at MIDL 2019. Extended version in MedIA, volume 67, Jan…

2026/6/28 10:58:45阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →