Pandas 操作指南(三):数据清洗与预处理

张开发
2026/4/5 4:23:38 15 分钟阅读

分享文章

Pandas 操作指南(三):数据清洗与预处理
数据能够进入 DataFrame并不意味着它已经适合直接分析。在实际工作中原始数据常常存在缺失、重复、格式混乱、类型不当等问题。若不先处理这些问题后续统计结果就可能失真筛选逻辑也可能出错。因此数据清洗Data Cleaning的任务是把“可以读取的数据”进一步整理为“可以分析的数据”。本文继续围绕学生成绩数据说明如何识别并处理缺失内容、替换无效值、修正数据类型、处理重复记录以及统一时间与数字格式。为体现清洗过程本篇使用一张刻意保留若干问题的数据表import pandas as pd raw_scores pd.DataFrame([ {学号: S001, 姓名: 张三, 班级: C01, 考试日期: 2025/09/01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 考试日期: 2025-09-01, 语文: None, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 考试日期: 2025-09-01, 语文: 90, 数学: 缺考, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 考试日期: 2025-09-01, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 考试日期: 2025-09-01, 语文: 78, 数学: 84, 英语: 80 }]) print(raw_scores)一、为什么要进行数据清洗原始数据的问题通常不在于“读不出来”而在于“读出来之后仍不规范”。例如• 某些值缺失• 某些字段格式不统一• 数字被读成文本• 同一记录重复出现• 某些无效值混入正常数据这些问题会直接影响后续分析。例如若“数学”列中出现“缺考”这样的文本则该列很难直接参与数值运算若“考试日期”列格式不统一则时间处理会变得困难若同一学生记录重复出现则统计人数和平均分都可能偏离实际情况。因此数据清洗的目标不是改变数据本身的业务含义而是将数据整理为结构一致、类型合理、格式规范、能够参与分析的状态。二、识别并处理缺失内容缺失值Missing Value是数据处理中最常见的问题之一。在 Pandas 中缺失值通常表现为 NaN 或 None。1、识别缺失值可使用 isna() 检查缺失情况print(raw_scores.isna())若只想查看各列缺失值数量print(raw_scores.isna().sum())2、删除缺失记录若某些缺失记录不能保留可使用 dropna()print(raw_scores.dropna())dropna() 默认按行删除即只要某一行存在缺失值就删除该行。也可指定只要某几列缺失就删除例如print(raw_scores.dropna(subset[语文]))3、填补缺失值若缺失值不宜直接删除可使用 fillna()scores raw_scores.copy()scores[语文] scores[语文].fillna(scores[语文].mean())print(scores)这里用语文平均分填补了缺失值。在实际工作中填补方式应依据业务背景决定例如填入均值、中位数、固定值或“未知”等标签。三、替换无效值与异常内容缺失值之外还有一类常见问题值存在但并不有效。例如“数学”列中的“缺考”并不是标准数值却占据了一个位置。1、使用替换无效内容可以使用 replace()scores raw_scores.copy()scores[数学] scores[数学].replace(缺考, pd.NA)print(scores)这一步的作用是先把“缺考”统一处理为缺失状态便于后续继续清洗。2、替换空格、特殊字符等内容例如英语列中存在 80 这样的值虽然看起来像数字但含有多余空格scores[英语] scores[英语].astype(str).str.strip()若某列存在统一但无效的占位值例如 暂无, -, 未知也可以用相同方式替换。替换的核心目的是把“表面不同、语义相近”的内容统一起来。否则后续类型转换和统计操作会受到干扰。四、修正不合适的数据类型数据类型Data Type是否合理直接决定后续能否正确计算。1、查看当前类型查看 dtypes 属性print(raw_scores.dtypes)你会发现“数学”“英语”“考试日期”等列很可能不是理想类型。2、显式类型转换当数据已经比较规范时可以使用 astype() 进行显式类型转换。例如可将整数列转为浮点型或将分类字段转为字符串类型scores raw_scores.copy()scores[英语] scores[英语].astype(float)要注意的是astype() 更适合较干净的数据。若数据中仍存在异常内容astype() 往往不如 pd.to_numeric() 或 pd.to_datetime() 稳妥。3、转换为数值类型对于数值列可使用 pd.to_numeric()scores raw_scores.copy()scores[数学] pd.to_numeric(scores[数学], errorscoerce)scores[英语] pd.to_numeric(scores[英语], errorscoerce)print(scores.dtypes)这里的 errorscoerce 表示无法转换的值统一转为缺失值。4、转换为日期时间类型对于日期列可使用 pd.to_datetime()scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce)print(scores.dtypes)formatmixed 表示自动识别混合格式能够被识别的字符串会被转换为日期时间类型无法识别的值会在 errorscoerce 下转为缺失值 NaT。五、处理重复数据重复记录Duplicate Data会使统计结果发生偏差因此必须检查。1、识别重复记录使用 duplicated()print(raw_scores.duplicated())若只想看重复数量print(raw_scores.duplicated().sum())2、删除重复记录使用 drop_duplicates()scores raw_scores.drop_duplicates()print(scores)3、按关键字段判断重复有时整行不完全相同但某个业务主键相同此时可以按关键字段处理scores raw_scores.drop_duplicates(subset[学号])print(scores)是否按整行去重还是按关键字段去重应依据业务含义决定。六、统一时间与数字格式原始数据中即使类型已经可用格式也可能仍不统一。1、统一时间格式经过 to_datetime() 转换后可以进一步使用 dt.strftime() 等格式化显示scores raw_scores.copy()scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce)scores[考试日期] scores[考试日期].dt.strftime(%Y/%m/%d)print(scores[考试日期])要注意的是.dt.strftime() 会将 datetime 类型转换回字符串类型这将失去日期计算能力。2、统一数字格式在完成数值类型转换后还可以进一步统一显示格式scores[数学] scores[数学].round(0).astype(Int64) # 四舍五入并转换类型scores[语文] scores[语文].round(1) # 保留1位小数需要注意round() 主要用于统一显示精度若列中存在缺失值结果列仍可能保持浮点型。类型统一解决的是“能否计算”的问题而格式统一更多解决的是“是否规范、是否便于展示和后续处理”的问题。七、整理表格顺序与显示结果完成缺失值、类型、重复值和格式处理后通常还需对表格做最后整理使其更适合阅读与分析。1、调整列顺序原始数据在读入 DataFrame 后列的排列顺序不一定符合阅读习惯也不一定适合后续分析。scores scores[[学号, 姓名, 班级, 考试日期, 语文, 数学, 英语]]print(scores)2、按列排序查看使用 sort_values()按“数学”成绩从高到低排序print(scores.sort_values(by数学, ascendingFalse))也可以按多列排序。比如先按“班级”升序排列在同一班级内部再按“数学”降序排列print(scores.sort_values(by[班级, 数学], ascending[True, False]))3、重置索引经过删除、筛选、排序等操作后DataFrame 的索引往往会变得不连续此时可使用 reset_index() 重置索引scores scores.reset_index(dropTrue)print(scores)dropTrue 表示丢弃原有索引不把它保留为新的一列。4、设置索引在某些情况下默认数字索引并不是最合适的表示方式。若某一列本身具有唯一标识作用也可以把它设为索引。例如可将“学号”设为索引scores scores.set_index(学号)print(scores)这样做后每一行都可通过学号直接定位表格会更像以“学号”为主键的数据表。需要注意的是设置索引后“学号”将不再作为普通数据列单独显示而是成为行标签的一部分。八、综合示例前文分别介绍了缺失值处理、无效值替换、类型修正、去重以及格式统一等方法。下面通过一个完整示例把这些步骤串联起来演示如何将一张“原始成绩表”整理为“可分析成绩表”。import pandas as pd raw_scores pd.DataFrame([ {学号: S001, 姓名: 张三, 班级: C01, 考试日期: 2025/09/01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 考试日期: 2025-09-01, 语文: None, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 考试日期: 2025-09-01, 语文: 90, 数学: 缺考, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S004, 姓名: 赵六, 班级: C02, 考试日期: 2025.09.01, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 考试日期: 2025-09-01, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 考试日期: 2025-09-01, 语文: 78, 数学: 84, 英语: 80 }]) # 复制原始数据避免直接修改原表scores raw_scores.copy() # 1. 删除重复记录scores scores.drop_duplicates() # 2. 将“缺考”替换为缺失值scores[数学] scores[数学].replace(缺考, pd.NA) # 3. 清理英语列中的空格scores[英语] scores[英语].astype(str).str.strip() # 4. 将语文、数学、英语转换为数值类型scores[语文] pd.to_numeric(scores[语文], errorscoerce)scores[数学] pd.to_numeric(scores[数学], errorscoerce)scores[英语] pd.to_numeric(scores[英语], errorscoerce) # 5. 统一考试日期类型scores[考试日期] pd.to_datetime(scores[考试日期], formatmixed, errorscoerce) # 6. 用语文平均分填补缺失值scores[语文] scores[语文].fillna(scores[语文].mean()) # 7. 调整列顺序scores scores[[学号, 姓名, 班级, 考试日期, 语文, 数学, 英语]] # 8. 按学号排序并重置索引scores scores.sort_values(by学号).reset_index(dropTrue) print(scores)print()print(scores.dtypes) 小结数据清洗的核心任务是把原始数据整理为结构一致、类型合理、格式规范、能够直接参与分析的数据。本文围绕学生成绩表依次介绍了缺失值处理、无效值替换、类型修正、重复记录处理、格式统一以及结果整理等常见方法。只有先完成清洗后续统计与分析才有可靠基础。延伸阅读《Pandas缺失值处理》“点赞有美意赞赏是鼓励”

更多文章