图像分割模型演进史:从FCN到SAM
图像分割模型输出发展史FCN │ ▼ U-Net │ ▼ DeepLab │ ▼ Mask R-CNN │ ▼ YOLACT │ ▼ YOLOv8/YOLO11 Seg │ ▼ SAM可以看到前三个属于直接输出像素分类Dense Prediction后面几个属于先预测目标再生成Mask这是两种完全不同的思路。第一种FCN网络输出假设输入640×640×3假设数据集有3类例如背景 猫 狗那么FCN最后输出640 × 640 × 3为什么因为每个Pixel都要预测属于背景 属于猫 属于狗所以每一个Pixel输出3个数例如第100行200列输出[0.01,0.98,0.01]表示背景1% 猫98% 狗1%最后argmax()得到猫于是Mask111111 111111所以FCN真正输出的是每个Pixel的类别概率(Logits)不是Mask。Mask只是argmax(logits)得到的。输出Tensor(B,C,H,W)例如(1,3,640,640)这里Bbatch C类别数第二种U-Net很多人认为U-Net输出Mask。其实不是。U-Net输出也是(B,C,H,W)例如二分类(1,1,512,512)为什么只有1因为只有前景 背景不需要输出两个通道。例如某Pixel0.92表示前景概率92%最后prob0.5得到Mask如果四分类背景 肝脏 脾脏 肾脏输出(1,4,512,512)每个Pixel[0.1,0.7,0.1,0.1]最后argmax()得到肝脏所以U-Net输出不是Mask。而是Pixel Classification Logits第三种DeepLabV3DeepLab和U-Net几乎一样。输出(B,C,H,W)例如VOC21类输出(1,21,513,513)每一个Pixel输出21个类别分数然后Softmax ↓ Argmax ↓ Mask所以DeepLab也是Dense Prediction。第四种Mask R-CNN这里开始完全变了。因为它不是预测整张Mask。而是每一个目标预测一个Mask。Mask R-CNN输出实际上有四个HeadClass Head Box Head Mask Head Score Head其中Mask Head输出例如检测到了3个目标那么Mask输出(3,80,28,28)为什么80COCO类别。28×28Mask大小。例如第一只狗输出Dog28×28不是640×640。最后再ROI AlignUpsample得到原图大小Mask。所以Mask R-CNN真正输出不是整张Mask。而是每个ROI的小Mask第五种YOLACTYOLACT更有意思。它根本不预测Mask。它输出两个东西。第一个Prototype例如(138,138,32)什么意思就是预测32张基础Mask。例如Mask1 Mask2 Mask3 ... Mask32第二个Coefficient每一个目标输出32例如[0.3,0.2,...]最后Prototype × Coefficient得到Mask。所以YOLACT输出不是Mask。而是Prototype Coefficient第六种YOLOv8 Seg / YOLO11 SegYOLO也是继承YOLACT。输出两部分。第一部分DetectionBoxes Classes Scores第二部分Prototype(32,160,160)第三部分每个目标Mask Coefficient32最终MaskProto Coeff例如Proto32×160×160目标Coeff32最后得到160×160再Upsample640×640所以YOLO真正输出Boxes Classes Scores Proto Coeff不是Mask。第七种SAMSAM更加不同。SAM输出三个东西。第一Mask例如(3,256,256)为什么3SAM默认输出三个候选Mask。第二IoU Prediction例如[0.98,0.85,0.61]表示三个Mask谁最好。第三Low Resolution Logits例如256×256方便下一轮Prompt。所以SAM输出Masks IoU Scores Low-res Logits不是只有Mask。所有模型输出对比模型网络直接输出Tensor Shape示例后处理得到FCNPixel Logits(B,C,H,W)argmax → MaskU-NetPixel Logits或前景概率(B,C,H,W)或(B,1,H,W)sigmoid/softmax → MaskDeepLabV3Pixel Logits(B,C,H,W)argmax → MaskMask R-CNNROI Mask Logits(N,C,28,28)训练或每实例(N,1,28,28)推理上采样 粘贴回原图YOLACTPrototype Coefficient(H,W,K)(N,K)线性组合 → MaskYOLO11Detection Prototype CoefficientProto(K,h,w)Coeff(N,K)Proto × Coeff → 上采样 → MaskSegment Anything Model多个 Mask Logits IoU 评分Masks Scores Logits选择最佳 Mask你会发现两个时代把所有模型归纳一下其实只有两大类第一类Dense Prediction逐像素预测代表模型FCNU-NetDeepLabV3共同特点输出 (B, C, H, W) ↓ Softmax / Sigmoid ↓ Mask网络直接对每一个像素进行分类。第二类Mask Generation生成 Mask代表模型Mask R-CNNYOLACTYOLO11Segment Anything Model共同特点检测目标 / 接收 Prompt ↓ 生成实例级 Mask ↓ 得到最终 Mask网络不直接输出整张图的像素类别图而是围绕目标实例或提示生成对应的 Mask。

相关新闻

从单点感知到全要素协同:水文监测体系的技术演进与落地实践

从单点感知到全要素协同:水文监测体系的技术演进与落地实践

一、传统分立型单点监测的模式逻辑与适用边界在早期水文监测体系中,单点监测是行业主流建设模式。一个监测站点通常围绕单一指标建设:雨量站负责降雨采集、水位站负责河道水位观测、流量站负责过水断面计算,每套系统独立部署、独立通信、独立…

2026/7/3 16:46:09阅读更多 →
企业高管团队稳定性

企业高管团队稳定性

时间跨度1999-2024年区域跨度中国A股上市公司高管数据数据格式数据格式为Excel形式数据简介企业高管团队的稳定性是组织可持续发展的核心要素,对企业战略执行、文化塑造和经营绩效具有深远影响。稳定的高管团队能够确保战略规划的一致性和延续性,避免因频…

2026/7/3 16:46:09阅读更多 →
TikTok自动化终极指南:5分钟快速上手TikTokPy完整教程

TikTok自动化终极指南:5分钟快速上手TikTokPy完整教程

TikTok自动化终极指南:5分钟快速上手TikTokPy完整教程 【免费下载链接】tiktokpy Tool for automated TikTok interactions 项目地址: https://gitcode.com/gh_mirrors/ti/tiktokpy 想要轻松实现TikTok社交互动自动化吗?TikTokPy是一款强大的Pyth…

2026/7/3 16:46:09阅读更多 →
Win11下Node.js稳定部署实操指南:绕过PowerShell策略与UAC陷阱

Win11下Node.js稳定部署实操指南:绕过PowerShell策略与UAC陷阱

1. 这不是“点下一步”的安装教程,而是Win11下Node.js真正落地的实操手册你搜到的标题里写着“超详细”,但点进去发现全是截图堆砌、步骤雷同、参数照抄官网——这种内容我十年前就写腻了。今天这篇,是我在给37家中小团队做前端基建支持、处理…

2026/7/3 18:21:26阅读更多 →
Java毕设项目: 学生毕业档案归档管理系统的设计与实现 基于前后端分离的学生信息台账管理系统(源码+文档,讲解、调试运行,定制等)

Java毕设项目: 学生毕业档案归档管理系统的设计与实现 基于前后端分离的学生信息台账管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 18:21:26阅读更多 →
2026视频去水印软件推荐电脑手机在线免费无广告

2026视频去水印软件推荐电脑手机在线免费无广告

日常整理学习素材、收藏喜欢的短视频内容时,画面上的平台水印往往会影响观看体验,也给后续的个人剪辑练习带来不便。2026 年市面上的去水印工具覆盖小程序、电脑软件、在线站点等多种形态,不少用户挑选时会关注是否免费、有无广告弹窗&#x…

2026/7/3 18:21:26阅读更多 →
从0到生产就绪:Cursor vs Windsurf在金融/医疗/嵌入式三大高合规场景的适配性红黑榜(含GDPR与等保2.0合规审计要点)

从0到生产就绪:Cursor vs Windsurf在金融/医疗/嵌入式三大高合规场景的适配性红黑榜(含GDPR与等保2.0合规审计要点)

更多请点击: https://kaifayun.com 第一章:从0到生产就绪:Cursor vs Windsurf的合规演进全景图 在现代AI辅助开发工具的选型中,Cursor与Windsurf代表了两种截然不同的合规演进路径:前者以VS Code生态深度集成和本地化…

2026/7/3 18:21:26阅读更多 →
5分钟快速上手:Windows毛玻璃美化神器DWMBlurGlass完全指南

5分钟快速上手:Windows毛玻璃美化神器DWMBlurGlass完全指南

5分钟快速上手:Windows毛玻璃美化神器DWMBlurGlass完全指南 【免费下载链接】DWMBlurGlass Add custom effect to global system title bar, support win10 and win11. 项目地址: https://gitcode.com/gh_mirrors/dw/DWMBlurGlass 你是否厌倦了Windows单调的…

2026/7/3 18:21:26阅读更多 →
绩隐金日报 · 第53期

绩隐金日报 · 第53期

📊 绩隐金日报 第53期专注数据库前沿,为DBA提供实战视角 2026年7月2日 | 精选5条全球重磅新闻01|OceanBase发布“湖库一体”AI数据库:杨冰称中国有机会定义下一代数据库范式 6月29日,OceanBase正式发布面向…

2026/7/3 18:16:25阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/3 14:18:39阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/3 14:38:35阅读更多 →
LV3296与PIC18F45K22的UART通信与USB扩展方案

LV3296与PIC18F45K22的UART通信与USB扩展方案

1. LV3296与PIC18F45K22的硬件搭档解析在嵌入式数据采集系统中,LV3296条形码扫描模块与PIC18F45K22微控制器的组合堪称经典搭配。LV3296作为一款工业级条码扫描头,其核心是一颗高性能CMOS图像传感器,配合专用解码芯片,能自动识别包…

2026/7/3 0:03:41阅读更多 →
AI初创生存指南:6个月完成可信度验证闭环

AI初创生存指南:6个月完成可信度验证闭环

1. 这不是“逆袭指南”,而是一份AI初创公司真实生存手记“How To Beat Odds As an AI Startup?”——这个标题乍看像一句热血口号,但在我带过7个从0到1的AI产品团队、亲手踩过融资失败、技术债崩盘、客户POC卡在最后一公里等23类典型坑之后,…

2026/7/3 0:03:41阅读更多 →
多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

1. 这不是又一篇“AI趋势速览”,而是一份实操者手记:当多模态、推理链、检索增强与智能体协作真正撞进工程现场“LAI #73”这个编号本身就像一个暗号——它不属于某家大厂的白皮书,也不是学术会议的议程表,而是长期泡在模型训练集…

2026/7/3 0:03:41阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/3 1:12:46阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/3 1:36:36阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/3 2:08:15阅读更多 →