数据预处理全流程(一个数据集贯穿),入门级包学包会
假设原始数据是一张用户表ID年龄薪资城市购买次数1258000北京5230?上海123258000北京5420012000深圳353515000?862810000广州0① 缺失值处理方法怎么做本例结果删除直接去掉该行删掉 ID2缺薪资、ID5缺城市填充均值用其他行的平均值填薪资?→ (80001200010000)/3 10000填充众数用出现最多的值填城市?→北京出现2次最多填充固定值统一填一个数城市?→未知实际最常用数值型填均值类别型填众数。② 重复值处理ID1 和 ID3 完全一样操作结果删除重复留一行删一行保留最后出现留 ID3python df.drop_duplicates() # 默认保留第一条③ 异常值处理ID4 年龄200明显是异常方法怎么做本例结果删除直接删删掉 ID4截断Capping超过上限的全部设为上限年龄 100 的全改成100视为缺失当成缺失值再用均值填年龄200 → 缺失 → 填均值 28业务敏感数据如年龄用截断不要直接删。④ 编码让机器能读懂文字城市是文字模型看不懂必须转数字方法结果适用场景Label Encoding北京0, 上海1, 深圳2, 广州3有大小关系的如等级One-Hot Encoding北京→[1,0,0,0]上海→[0,1,0,0]...无大小关系的如城市One-Hot 后的表年龄薪资北京上海深圳广州购买次数258000100053010000010012.....................⑤ 标准化 / 归一化让量纲一致年龄范围 20~100薪资范围 5000~20000数字差距太大模型会被薪资主导。方法公式结果范围本例年龄25归一化 (Min-Max)(x - min) / (max - min)[0, 1](25-20)/(100-20) 0.0625标准化 (Z-Score)(x - μ) / σ均值0标准差1(25-28)/4 ≈-0.75选哪个有明确上下界如0~100分→ 归一化没有明确边界如薪资→ 标准化树模型随机森林、XGBoost→不需要做⑥ 二值化刚才讲过购买次数 → 是否活跃原始阈值≥5结果5≥51活跃12≥51050不活跃⑦ 特征选择少即是多方法思路删低方差列所有人城市都一样 → 删掉删高相关列薪资和年收入几乎一样 → 留一个业务判断ID 对预测没用 → 删掉完整流程一览原始数据 → ① 缺失值处理填/删 → ② 重复值处理删 → ③ 异常值处理删/截断/填 → ④ 编码文字→数字 → ⑤ 标准化/归一化量纲统一 → ⑥ 二值化/分箱按需 → ⑦ 特征选择降维 → 干净数据 → 喂模型

相关新闻

036、CA 坐标注意力插入 Backbone(位置一):把位置信息编码进通道注意力的代码

036、CA 坐标注意力插入 Backbone(位置一):把位置信息编码进通道注意力的代码

036、CA 坐标注意力插入 Backbone(位置一):把位置信息编码进通道注意力的代码从一次诡异的mAP波动说起 去年秋天调一个工业检测模型,Backbone用的YOLOv8-S,在某个特定缺陷类别上mAP死活卡在0.78上不去。试了SE、CBAM、…

2026/6/26 18:07:50阅读更多 →
凭什么要用余弦退火,不用正弦退火

凭什么要用余弦退火,不用正弦退火

先说结论:余弦退火功能:让学习率像余弦波一样平滑地先缓降、再快降,最后在谷底温柔触底。为什么?先看看公式看着烦,不看了,核心就是:f(t) 来看看对t求导,其他的不用管 得到一个sin(…

2026/6/26 18:07:50阅读更多 →
3分钟掌握WindowResizer:Windows窗口尺寸调整终极指南

3分钟掌握WindowResizer:Windows窗口尺寸调整终极指南

3分钟掌握WindowResizer:Windows窗口尺寸调整终极指南 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具 项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 还在为Windows应用程序窗口尺寸无法调整而烦恼吗?你是…

2026/6/26 18:02:49阅读更多 →
8G 内存硬扛万级打印请求:一次 IoT 远程打印系统的接口级故障复盘

8G 内存硬扛万级打印请求:一次 IoT 远程打印系统的接口级故障复盘

作者:magicxie场景:IoT 远程打印痛点:下单即扣费、接口级故障、资源受限(8G 服务器 4G 消息中间件)前言很多人以为 IoT 就是“设备连上网,发个 HTTP 请求”。但在远程打印这种场景里,每一个接口…

2026/6/26 19:23:11阅读更多 →
从单体到微服务:后端开发的演进之路

从单体到微服务:后端开发的演进之路

在数字化浪潮的推动下,软件架构的演进从未停歇。从最初的单体架构到如今盛行的微服务架构,后端开发经历了一场深刻的变革。这场变革不仅是技术的升级,更是开发理念、团队协作模式和运维体系的全面革新。本文将深入探讨从单体到微服务的演进之…

2026/6/26 19:23:11阅读更多 →
聊天已死,ChatGPT即将迎来最大改版

聊天已死,ChatGPT即将迎来最大改版

多家媒体的最新报道,OpenAI将在未来几周内对ChatGPT进行自2022年上线以来规模最大的一次升级,核心方向是将其从“聊天机器人”转型为“超级应用”和AI智能体平台。 OpenAI资深员工甚至直言:“聊天已死” 最近OpenAI产品负责人在公开演讲中表示…

2026/6/26 19:23:11阅读更多 →
图匹配重构与k-switch操作:从马尔可夫链到快速混合分析

图匹配重构与k-switch操作:从马尔可夫链到快速混合分析

1. 从一个“重构”的直觉谈起:为什么k-switch值得深挖?最近在社区里看到不少关于“重构”的讨论,尤其是在AI编程辅助工具(比如Codex Refactor Skill这类概念)的语境下,大家热衷于讨论如何让代码结构更优、逻…

2026/6/26 19:23:11阅读更多 →
如何快速实现词达人自动化:面向学生的终极解决方案

如何快速实现词达人自动化:面向学生的终极解决方案

如何快速实现词达人自动化:面向学生的终极解决方案 【免费下载链接】cdr 微信词达人,高正确率,高效简洁。支持班级任务及自选任务 项目地址: https://gitcode.com/gh_mirrors/cd/cdr 你是否厌倦了每周在词达人平台上花费数小时完成重复…

2026/6/26 19:23:11阅读更多 →
开发者如何打造个人技术IP:从虚拟形象设计到自动化运营全攻略

开发者如何打造个人技术IP:从虚拟形象设计到自动化运营全攻略

1. 项目概述:一个开发者的虚拟形象诞生记“敲代码的小鳄鱼”,这个名字听起来有点萌,又带点技术宅的酷劲儿。它不是一个具体的软件项目,而是一个开发者个人品牌的虚拟形象。在程序员社区、技术博客或者社交媒体上,你或许…

2026/6/26 19:18:10阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 4:15:25阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →