JMP系列-数据清洗实战(一)
1. 数据清洗入门为什么JMP是首选工具第一次接触数据分析的朋友常常会被数据清洗这个词吓到。其实说白了就是把乱七八糟的数据整理干净的过程。想象一下你刚搬完家房间里堆满未拆封的纸箱——数据清洗就是帮你把这些箱子拆开把物品分类放好的过程。JMP在这方面的优势特别明显。它的可视化界面让操作变得直观不像写代码那样需要记忆复杂的语法。我刚开始用Excel处理数据时经常被各种公式搞得头晕眼花直到发现JMP的交互式操作效率直接翻倍。最让我惊喜的是它的实时预览功能任何修改都能立即看到效果避免了很多返工。常见的数据脏乱问题主要有三类缺失值该填的地方空着、异常值明显不合理的数据、格式混乱比如日期写成2023年1月1日和01/01/23混在一起。上周处理销售数据时就遇到个典型案例同一产品的价格有的带美元符号有的没带还有的把999输成了99o这种问题不解决后续分析全都会出错。2. 查找替换数据清洗的瑞士军刀2.1 基础查找替换技巧CtrlF这个组合键在JMP里比在Word里强大十倍。最近处理客户反馈数据时发现满意度列里混着满意、非常满意、satisified等十几种写法用查找替换20分钟就统一成了5个标准等级。几个实用技巧区分大小写处理英文数据时特别有用比如要把Apple改成苹果但保留apple指水果全字匹配避免把car替换成汽车时误改cartoon这样的词列范围限定只在指定列操作防止误改其他列数据上周帮同事处理实验数据时就栽过跟头没限定列范围把整个表格里的NA都替换成了0结果把试剂批号里的NA-2023也改掉了差点导致重大错误。切记操作前先确认选区2.2 重新编码的高级玩法重新编码功能就像给数据做批量美颜。处理调查问卷时经常遇到这种情况1-5分制的选项有人填优秀/良好/一般有人填A/B/C还有人直接写分数。用重新编码可以一键统一成数字格式。进阶技巧条件编码比如把大于3σ的值统一标记为异常公式集成在编码时嵌入简单计算比如把华氏度转成摄氏度保留原数据建议先新建列操作验证无误后再删除原列有个容易忽略的细节重新编码对话框右下角的其他值选项。如果不设置系统会自动把未列出的值转为缺失值我就曾因此莫名其妙丢失了30%的数据。现在养成了习惯总会加上其他值→保持原样的设置。3. 数据类型处理的正确姿势3.1 批量修改数据类型数据类型错误是分析结果出问题的常见原因。上个月分析年度报表时发现销售额同比计算异常查了2小时才发现有列数字被存成了文本格式。JMP提供了两种解决方案方法一右键批量修改按住Ctrl多选需要修改的列右键→列信息在数据类型下拉菜单调整特别注意建模类型名义/有序/连续的设置方法二标准化特性这个藏在列菜单下的功能堪称神器可以一次性修改数据类型数值/字符/日期等格式小数位数、日期格式等建模类型决定后续分析方法的适用性最近处理气象数据时就靠它50多个监测点的数据有的温度带小数有的只有整数用标准化特性统一保留两位小数后续计算再没出过错。3.2 日期时间处理的坑与技巧日期格式混乱绝对能进数据清洗噩梦排行榜前三。去年处理跨国销售数据时遇到过美式MM/DD/YYYY、欧式DD/MM/YYYY、ISO格式YYYY-MM-DD混在一起的情况差点导致季度报告全部重做。JMP的日期处理技巧先用列信息确认当前识别格式使用数值格式→日期中的预设格式自定义格式时注意区分m代表月份1-12mm会补零01-12mmm显示英文缩写Jan-Dec有个实用技巧遇到无法自动识别的日期可以先在Excel中用DATEVALUE函数转换再导入JMP。曾经有个项目遇到2023年三月15日这种格式JMP直接报错用这个方法10分钟就搞定了。4. 数据重构行列转换实战4.1 智能列拼接技巧需要合并多列数据时90%的人第一反应是用公式。但其实JMP的组合列功能更简单高效。上周做客户画像分析时需要把省、市、区三级地址合并用组合列三步搞定选择要合并的列设置分隔符我用的是空格指定新列名更复杂的情况可以用公式比如需要条件拼接Concat( If(:年龄18, 青少年_, ), If(:性别男, M_, F_), :城市 )这个公式会把18岁以下的青少年标记出来并加上性别前缀我在做教育产品分析时经常用这种组合。4.2 行转列的三种场景实际分析中经常需要调整数据布局主要有三种情况情况一多行转列名处理传感器数据时经常遇到第一列是时间戳后面每行是一个传感器的实时读数。用上移和追加功能选中要作为列名的行右键→列名称→上移和追加系统会自动处理重复列名加数字后缀情况二行列转置这个简单在表菜单里直接选转置但要注意转置前最好先复制备份转置后会丢失原列名大表转置可能很耗内存情况三分类展开把一列中的分类值展开成多列类似Excel的数据透视。最近分析产品缺陷类型时就用到了选择表→透视拖拽分类字段到行区域拖拽数值字段到值区域在汇总统计选择合适算法平均/求和等5. 缺失值与异常值处理实战5.1 智能填充缺失值缺失值处理不能简单填0了事。上周分析临床试验数据时发现不同缺失原因需要不同处理设备故障导致的缺失用前后时间点数据线性插补患者未检测的缺失标记为未检测而非数值明显遗漏的缺失联系原始数据提供方确认JMP的缺失值处理路径先通过分析→缺失值分析查看分布对连续变量分布平台→保存→缺失值填充对分类变量用重新编码统一缺失标记复杂情况用公式编辑器写条件替换逻辑有个实用技巧在首选项→平台→分布中可以设置缺失值的显示颜色我习惯设为亮红色一眼就能发现。5.2 异常值检测四步法异常值不一定是错误但必须识别出来单独评估。我的标准流程绘制分布图看整体形态使用异常值筛选交互式标记对标记点右键→行编辑器查看详情根据业务知识判断是否合理最近分析电商数据时发现个典型案例有个订单金额显示为普通订单的1000倍。最初以为是输入错误查原始记录才发现是批发客户的大单。如果直接删除这个异常值就会丢失重要业务信息。进阶技巧用拟合正态叠加在分布图上可以直观看到偏离程度。在保存菜单里选择标准化分数就能用统计方法量化异常程度通常3σ视为异常。

相关新闻

从零搭建ObjectARX开发环境:SDK与Wizards实战配置指南

从零搭建ObjectARX开发环境:SDK与Wizards实战配置指南

1. 环境准备:从零认识ObjectARX开发 第一次接触CAD二次开发的朋友可能会被ObjectARX这个名词吓到,其实它就像乐高积木里的专用连接件。想象一下,AutoCAD本身是个功能强大的玩具箱,而ObjectARX就是让你能够自己制作新零件的工具包。…

2026/6/30 11:24:24阅读更多 →
从零到一:在uni-app项目中优雅集成Pinia状态管理

从零到一:在uni-app项目中优雅集成Pinia状态管理

1. 为什么要在uni-app中使用Pinia? 第一次接触uni-app的状态管理时,你可能会有这样的疑问:既然uni-app已经内置了Vuex,为什么还要用Pinia?我刚开始也有同样的困惑,直到在实际项目中踩了几个坑才明白两者的区…

2026/6/30 11:24:24阅读更多 →
PG 日报|PG 排序性能优化,新增 UUID 聚合函数

PG 日报|PG 排序性能优化,新增 UUID 聚合函数

🔔 关注【IvorySQL开源数据库社区】即可获取 PostgreSQL 一手干货与最新动态⚙️ PostgreSQL技术文章 🧩 在满足欧盟数据主权要求的同时加快创新步伐2026年6月,欧盟委员会发布European Tech Sovereignty一揽子政策,将数据主权提升…

2026/6/30 11:24:24阅读更多 →
告别Chrome默认空白页!用Infinity插件打造你的专属浏览器工作台(附Pro版解锁技巧)

告别Chrome默认空白页!用Infinity插件打造你的专属浏览器工作台(附Pro版解锁技巧)

用Infinity Pro打造你的浏览器工作台:从效率工具到生产力中枢每次打开浏览器,那个冷冰冰的空白页是否让你感到一丝无奈?作为每天要与浏览器打交道数小时的现代知识工作者,我们值得拥有更高效的工作起点。Infinity插件远不止是一个…

2026/6/30 17:15:44阅读更多 →
工控(PLC/IPC)设备编程接口汇总

工控(PLC/IPC)设备编程接口汇总

一、下面要用到的术语拆解 Internal:片内 / 内置、设备内部集成(非外置独立编程口) Debug:调试 Programming Device:编程器、烧录设备、固件下载单元 Interface:硬件通信接口(引脚 / 总线协议…

2026/6/30 17:15:44阅读更多 →
OCAuxiliaryTools:OpenCore配置的图形化革命,让黑苹果部署不再困难

OCAuxiliaryTools:OpenCore配置的图形化革命,让黑苹果部署不再困难

OCAuxiliaryTools:OpenCore配置的图形化革命,让黑苹果部署不再困难 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore(OCAT) 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTool…

2026/6/30 17:15:44阅读更多 →
safeguard-web:一站式服务器运维管理平台的终极指南

safeguard-web:一站式服务器运维管理平台的终极指南

safeguard-web:一站式服务器运维管理平台的终极指南 【免费下载链接】safeguard-web Linux security audit, control, and behavior analysis web display. 项目地址: https://gitcode.com/openeuler/safeguard-web 前往项目官网免费下载:https:/…

2026/6/30 17:15:44阅读更多 →
sysHAX未来路线图:多机多卡支持与更多AI加速卡适配计划

sysHAX未来路线图:多机多卡支持与更多AI加速卡适配计划

sysHAX未来路线图:多机多卡支持与更多AI加速卡适配计划 【免费下载链接】sysHAX sysHAX Heterogeneous collaborative acceleration runtime 项目地址: https://gitcode.com/openeuler/sysHAX 前往项目官网免费下载:https://ar.openeuler.org/ar/…

2026/6/30 17:15:44阅读更多 →
基于Airtest与Jenkins的自动化测试流水线实战指南

基于Airtest与Jenkins的自动化测试流水线实战指南

1. 项目概述:为什么我们需要“代码提交即触发”的自动化测试流水线?在移动应用和游戏开发领域,每一次代码提交都可能引入新的功能或隐藏的Bug。传统的测试流程往往是开发完成后,由测试人员手动触发一轮回归测试,这不仅…

2026/6/30 17:10:43阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 4:03:30阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/30 4:36:27阅读更多 →
为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南 【免费下载链接】Destiny-2-Solo-Enabler Repo containing the C# and XAML code for the D2SE program. Included is also the dependency for the program, and image asset. 项目地址: https://gitcode…

2026/6/30 0:02:58阅读更多 →
第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

1. PowerPoint 2010基础操作全攻略 刚接触PowerPoint 2010时,很多人会被它复杂的界面吓到。其实只要掌握几个核心区域,就能快速上手。我最开始用PPT时,经常找不到功能按钮在哪,后来发现主要操作都集中在顶部功能区。 工作窗口主要…

2026/6/30 0:02:58阅读更多 →
XGBoost超参数实战:从理论到调优策略

XGBoost超参数实战:从理论到调优策略

1. XGBoost超参数基础认知 第一次接触XGBoost时,我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果,但按错了就可能坠机。经过多年实战,我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:59阅读更多 →