不平衡数据处理:过采样/欠采样/损失函数调优
不平衡数据处理过采样/欠采样/损失函数调优1. 不平衡数据问题不平衡数据场景 ├── 欺诈检测欺诈 0.1% vs 正常 99.9% ├── 疾病诊断患病 1% vs 健康 99% ├── 缺陷检测缺陷 2% vs 正常 98% └── 异常检测异常 0.5% vs 正常 99.5% 问题 ├── 模型偏向多数类 ├── 少数类召回率极低 └── 准确率虚高全预测多数类也有 99%2. 过采样方法fromimblearn.over_samplingimportSMOTE,ADASYN,RandomOverSampler# SMOTE最常用smoteSMOTE(sampling_strategy0.5,random_state42)X_res,y_ressmote.fit_resample(X_train,y_train)# ADASYN自适应合成adasynADASYN(sampling_strategy0.5,random_state42)X_res,y_resadasyn.fit_resample(X_train,y_train)# 随机过采样rosRandomOverSampler(sampling_strategy0.5,random_state42)X_res,y_resros.fit_resample(X_train,y_train)3. 欠采样方法fromimblearn.under_samplingimport(RandomUnderSampler,TomekLinks,EditedNearestNeighbours)# 随机欠采样rusRandomUnderSampler(sampling_strategy0.5,random_state42)X_res,y_resrus.fit_resample(X_train,y_train)# Tomek Links清理边界tomekTomekLinks()X_res,y_restomek.fit_resample(X_train,y_train)# 组合方法fromimblearn.combineimportSMOTETomek smtSMOTETomek(random_state42)X_res,y_ressmt.fit_resample(X_train,y_train)4. 类别权重调优fromsklearn.utils.class_weightimportcompute_class_weightimportnumpyasnp# 计算类别权重classesnp.unique(y_train)weightscompute_class_weight(balanced,classesclasses,yy_train)class_weight_dictdict(zip(classes,weights))# 使用类别权重fromsklearn.ensembleimportRandomForestClassifier rfRandomForestClassifier(class_weightbalanced,random_state42)rf.fit(X_train,y_train)# XGBoostimportxgboostasxgb scale_pos_weightlen(y_train[y_train0])/len(y_train[y_train1])xgb_clfxgb.XGBClassifier(scale_pos_weightscale_pos_weight)5. Focal Lossimporttorchimporttorch.nnasnnclassFocalLoss(nn.Module):def__init__(self,alpha0.25,gamma2.0):super().__init__()self.alphaalpha self.gammagammadefforward(self,inputs,targets):BCE_lossnn.functional.binary_cross_entropy_with_logits(inputs,targets,reductionnone)pttorch.exp(-BCE_loss)focal_lossself.alpha*(1-pt)**self.gamma*BCE_lossreturnfocal_loss.mean()# 使用criterionFocalLoss(alpha0.25,gamma2.0)losscriterion(outputs,targets)总结方法适用场景优势SMOTE中度不平衡增加多样性欠采样数据量大加速训练类别权重任何场景简单有效Focal Loss极端不平衡聚焦难分类

相关新闻

正式批VS补录批:软件测试秋招三阶段,哪个阶段上岸最容易?

正式批VS补录批:软件测试秋招三阶段,哪个阶段上岸最容易?

秋招不是一场考试,是三次机会。 很多人把秋招理解成“金九银十”那两个月——9月投简历、10月面试、11月等结果。但实际上,秋招是分三个阶段递进展开的:提前批(7-8月)、正式批(9-10月)、补录批&…

2026/7/6 2:59:17阅读更多 →
2026 年最热门的 8 个 SERP API

2026 年最热门的 8 个 SERP API

做搜索能力集成的开发者这两年绕不开 SERP API 这个品类。Google 搜索结果页对自动化请求的限制越来越多,自己维护一套稳定抓取几乎不可能,所以「调用第三方 SERP API」就成了主流选择。 市面上 SERP API 服务不少,质量参差不齐。下面从开发…

2026/7/6 2:59:17阅读更多 →
Display Driver Uninstaller:彻底解决显卡驱动冲突的专业指南

Display Driver Uninstaller:彻底解决显卡驱动冲突的专业指南

Display Driver Uninstaller:彻底解决显卡驱动冲突的专业指南 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-unins…

2026/7/6 2:59:17阅读更多 →
小样本统计推断:为什么t分布比正态分布更可靠

小样本统计推断:为什么t分布比正态分布更可靠

1. 项目概述:为什么小样本时代,t分布比正态分布更值得你信赖?在统计学的实际战场上,我们很少能拿到成百上千个观测值——更多时候,手头只有12份血样、8组用户访谈录音、15次A/B测试的点击数据,甚至实验室里…

2026/7/6 6:19:34阅读更多 →
家长必看!孩子用AI作业提分18%却毁掉考试?3个避坑指南

家长必看!孩子用AI作业提分18%却毁掉考试?3个避坑指南

26000名学生30个月追踪:AI作业的甜蜜陷阱,闭卷考试分数下降20%到24%,家长和老师必看我昨天看了一份研究报告,看完之后后背发凉。作业分数提高了18%,但考试成绩却下降了24%。为什么?真相是你家孩子用ChatGPT…

2026/7/6 6:19:34阅读更多 →
Camera AF 执行器校准:从 DAC 到 Lens Position 的 3 步映射原理与实战

Camera AF 执行器校准:从 DAC 到 Lens Position 的 3 步映射原理与实战

Camera AF 执行器校准:从 DAC 到 Lens Position 的 3 步映射原理与实战当手机摄像头完成对焦时,镜头位置的变化看似简单,背后却隐藏着精密的数学转换与硬件协同。本文将深入解析自动对焦(AF)系统中数字模拟转换值&…

2026/7/6 6:19:34阅读更多 →
3步彻底禁用Windows Defender:释放30%系统性能的技术方案

3步彻底禁用Windows Defender:释放30%系统性能的技术方案

3步彻底禁用Windows Defender:释放30%系统性能的技术方案 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirrors/…

2026/7/6 6:19:34阅读更多 →
如何用C++实现跨平台语音合成:DragonianVoice语音AI实战指南

如何用C++实现跨平台语音合成:DragonianVoice语音AI实战指南

如何用C实现跨平台语音合成:DragonianVoice语音AI实战指南 【免费下载链接】MoeVoiceStudio 多个SVC/TTS的C推理库 项目地址: https://gitcode.com/gh_mirrors/mo/MoeVoiceStudio 你是否曾经想要为你的二次元角色创造独特的声音?或者希望为你的游…

2026/7/6 6:19:34阅读更多 →
如何在Windows 10/11上实现经典游戏联机:IPXWrapper终极解决方案

如何在Windows 10/11上实现经典游戏联机:IPXWrapper终极解决方案

如何在Windows 10/11上实现经典游戏联机:IPXWrapper终极解决方案 【免费下载链接】ipxwrapper 项目地址: https://gitcode.com/gh_mirrors/ip/ipxwrapper 你是否在Windows 10或Windows 11上尝试运行经典游戏时遇到了"找不到IPX协议"的错误&#x…

2026/7/6 6:14:33阅读更多 →
从GitHub安全案例解析常见漏洞与防护实践

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述:从GitHub Trending看安全实战 最近在GitHub Trending上看到一个项目,叫 skills4/skills ,它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景:一个旨在展示或教授某种技能的仓库,本身却成了安…

2026/7/6 4:26:20阅读更多 →
MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示:因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战:从“黑箱预测”到“可信推理”2026年6月,第7届机器学习与趋势国际会议(MLT 2026)将在悉尼召开。会议议程中,“因果与可解释机器学习…

2026/7/6 2:48:33阅读更多 →
通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时,通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中,是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…

2026/7/6 0:10:35阅读更多 →
Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南

Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南

Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 技术架构先行:官方接口的合规应用 你是否曾在BP阶段手忙脚乱&#x…

2026/7/6 0:03:39阅读更多 →
多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理 【免费下载链接】mRemoteNG mRemoteNG is the next generation of mRemote, open source, tabbed, multi-protocol, remote connections manager. 项目地址: https://gitcode.com/gh_m…

2026/7/6 0:03:39阅读更多 →
COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南

COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南

COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南在数据分析和处理领域,去重统计是最基础也是最频繁使用的操作之一。当数据量达到亿级规模时,不同的去重统计方法在性能上可能产生天壤之别。本文将基于 5 亿行数据的实…

2026/7/6 0:03:39阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/6 4:45:01阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/6 4:45:01阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/6 4:45:03阅读更多 →