【Python】数据分析+数据挖掘——掌握Python和Pandas中的单元格替换操作

1. 前言

数据处理和清洗是数据分析和机器学习中至关重要的步骤。在数据处理过程中，我们经常需要对数据集进行清洗和转换，其中单元格替换是一个常用的技术。Python作为一种功能强大且灵活的编程语言，为数据处理提供了丰富的工具和库。Pandas库是Python中最流行的数据处理库之一，它提供了丰富的功能，包括强大的单元格替换操作。

在本博客中，我们将深入探讨Python和Pandas库中有关单元格替换的知识。我们将首先介绍Python中的基本替换方法，然后重点关注Pandas库中的
df.replace()
方法，以及如何使用它来进行单元格替换。我们还将学习如何使用
df.replace()
来实现单元格范围替换，以及如何进行哑变量替换，将分类数据转换为更易于处理的形式。

2. 单元格变量替换

当涉及到数据处理、清洗或转换时，Python原生库和Pandas库都提供了一些功能来进行单元格替换。让我们先介绍一下Python原生库中的替换方法，然后再探讨Pandas库的相关功能。

Python原生库中的单元格替换：

在Python中，主要使用内置的数据结构如列表（List）和字典（Dictionary）来处理数据。对于列表，你可以使用

列表推导式或循环

来实现单元格替换，而对于字典，可以通过键值对的方式进行替换。

例如使用列表推导式替换列表中的特定值：

In[0]:

derive_list = ['a','b','c','d','e'] # 用列表推导来替换的列表例子

derive_list = [x if x != 'a' else 'A' for x in derive_list] # 使用列表推导式来替换列表中特定的值
print(derive_list)

注释：

derive_list: 这是一个列表变量，它包含了一些元素。假设derive_list是一个字符串列表，例如[‘a’, ‘b’, ‘c’, ‘d’, ‘e’]。
for x in derive_list: 这是列表推导式的循环部分。它遍历derive_list中的每个元素，并将当前元素赋值给变量x。
x if x != ‘a’ else ‘A’: 这是列表推导式的条件表达式。它表示如果当前元素x不等于’a’，则不做修改，否则替换为’A’。

最终结果: 列表推导式的结果是一个新的列表，其中满足条件的元素已经被替换。该结果会覆盖原始的derive_list，因此derive_list会被修改。

out[0]:

['A', 'b', 'c', 'd', 'e']

接下来使用循环替换列表中的特定值：

In[1]:

loop_list = ['h','e','l','l','o',',','p','y','t','h','o','n'] # 用循环来替换列表中特定的值

for index,list_item in enumerate(loop_list): # 使用循环来替换列表中特定的值
    if list_item == 'p':
        loop_list[index] = 'P'
    
for new_list_item in loop_list: # 使用循环来依次打印新列表里面的元素值
    print(new_list_item, end="") # end=""的作用是不换行

注释：

enumerate()
函数可以用于遍历一个可迭代对象（如列表、元组、字符串等）并返回元素的索引和对应的值。

out[1]:

hello,Python

最后在学习一下使用字典替换列表中的特定值：

In[2]:

num_key_dict = {0:'a',1:'b',2:'c',3:'d'} # 键为number类型的dict
str_key_dict = {'0':'a','1':'b','2':'c','3':'d'} # 键为string类型的dict

num_key_dict[1] = 'B' # 替换dict中的特定值
str_key_dict['1'] = 'B' # 替换dict中的特定值

print("num_key_dict is:",num_key_dict)
print("str_key_dict is:",str_key_dict)

注释：

若将
str_key_dict['1'] = 'B'
改为
str_key_dict[1] = 'B'
那么str_key_dict中的’b‘值并不会被改变，而是字典中多了一个key为1，value为’B’的键值对

out[2]:

num_key_dict is: {0: 'a', 1: 'B', 2: 'c', 3: 'd'}
str_key_dict is: {'0': 'a', '1': 'B', '2': 'c', '3': 'd'}

案例数据表university_rank.csv

在这里插入图片描述

接下来我们将重点放在Pandas中的单元格替换操作，Pandas提供了多种方法来替换DataFrame或Series中的特定值。这些方法可以帮助你快速、灵活地对数据进行替换。下面将详细介绍几种常用的单元格替换方法。

常用的函数是
df.inplace
来进行某个单元格或者某个列的变量替换

语法：DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)

df.replace(
    # 要替换的值。可以是单个值、一个列表、字典或正则表达式。
    to_replace
    # 用于替换的新值。可以是单个值或字典。
    value
    # 是否在原df上修改
    inplace = False
    # 指定每行替换的最大数量。默认为None，表示不限制。
    limit = None
	# 是否启用正则表达式替换。默认为False。
	regex = False 
	# 当to_replace为字典时，指定如何进行替换。默认为'pad'，表示用字典中的值向前填充
	method = 'pad'
)

In[3]:

import pandas as pd

df = pd.read_csv("university_rank.csv") # 读取案例数据表
inplace_set = {'北美': "北美洲", '南美': '南美洲'} # 创建一个替换集合
df.地区.replace(inplace_set, inplace=True) # 将读取到的数据中所有'北美'、'南美'单元格均换成'北美洲'、'南美洲'
df # 展示新的DataFrame

**out[3]:**

        大学名称   排名   地区   学科领域    排名依据
0       哈佛大学    1  北美洲     工程    学术声誉
1       牛津大学    2   欧洲     医学    科研产出
2       北京大学    3   亚洲     商学   国际影响力
3       悉尼大学    4  大洋洲  计算机科学    教学质量
4      圣保罗大学    5  南美洲     艺术   学生满意度
..       ...  ...  ...    ...     ...
95   圣保罗国立大学   96  南美洲  计算机科学  研究生录取率
96   约翰内斯堡大学   97   非洲   环境科学    学术声誉
97     麦吉尔大学   98  北美洲     艺术   学生满意度
98  伦敦政治经济学院   99   欧洲     法律   国际影响力
99      东京大学  100   亚洲     教育  毕业生就业率

[100 rows x 5 columns]

2.1 范围单元格替换

假如要对某个范围的单元格进行替换就需要搭配
df.query
、
df.loc
、
df.index
来使用来达到目的

若我想要筛选出地区为北美洲和南美洲，同时10<排名<80的所有记录,将其排名依据均设置为空

In[4]:

df.loc[df.query("10<排名<80 and 地区 in ['北美洲','南美洲']").index, '排名依据'] = '' # 筛选出地区为北美洲和南美洲，同时10<排名<80的所有记录,将其排名依据均设置为空
df[10:79] # 查看进行范围单元格替换后的DataFrame

out[4]:

	大学名称	排名	地区	学科领域	排名依据
10	斯坦福大学	11	北美洲	工程
11	剑桥大学	12	欧洲	医学	教学质量
12	清华大学	13	亚洲	商学	校友网络
13	墨尔本大学	14	大洋洲	计算机科学	学术声誉
14	圣保罗国立大学	15	南美洲	艺术
…	…	…	…	…	…
74	墨尔本大学	75	大洋洲	商学	国际化程度
75	圣保罗国立大学	76	南美洲	计算机科学
76	约翰内斯堡大学	77	非洲	环境科学	学术声誉
77	麦吉尔大学	78	北美洲	艺术
78	伦敦政治经济学院	79	欧洲	法律	国际影响力

69 rows × 5 columns

同样的我们也可以使用replace方法，通过条件表达式选择满足条件的行，并将”排名依据”列的值置为空字符串

In[5]:

# 使用replace方法，通过条件表达式选择满足条件的行，并将"排名依据"列的值置为空字符串
condition = (df["排名"].between(11, 79)) & (df["地区"].isin(['北美洲', '南美洲']))
df['排名依据'].replace(to_replace=df.loc[condition, '排名依据'].values, value='', inplace=True)

df[10:79] # 查看进行范围单元格替换后的DataFrame

.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}

out[5]:

	大学名称	排名	地区	学科领域	排名依据
10	斯坦福大学	11	北美洲	工程
11	剑桥大学	12	欧洲	医学	教学质量
12	清华大学	13	亚洲	商学	校友网络
13	墨尔本大学	14	大洋洲	计算机科学	学术声誉
14	圣保罗国立大学	15	南美洲	艺术
…	…	…	…	…	…
74	墨尔本大学	75	大洋洲	商学	国际化程度
75	圣保罗国立大学	76	南美洲	计算机科学
76	约翰内斯堡大学	77	非洲	环境科学	学术声誉
77	麦吉尔大学	78	北美洲	艺术
78	伦敦政治经济学院	79	欧洲	法律	国际影响力

69 rows × 5 columns

2.2 哑变量替换

在数据分析和统计学中，哑变量（Dummy Variable），也称为虚拟变量，是用来对分类变量进行编码的一种方法。在许多机器学习算法中，需要将分类数据转换为数值形式才能进行处理，而哑变量就是一种常用的编码方式。

哑变量编码的基本思想是将一个有n个取值的分类变量转换成n个二进制变量，每个二进制变量表示该分类是否出现。对于原始的分类变量，其中某个取值用1表示，而其他取值用0表示。这样做的目的是为了在数值形式上保持分类变量之间的独立性。

例如，假设有一个商品，它具有商品ID、价格、分类三个属性，变量“分类”，包含三个取值：“日常用品”、“蔬果”和”服装”。如下图所示

属性1

属性2

属性3

商品

商品ID

价格

分类

使用哑变量编码后，将生成三个二进制变量：”日常用品”变量、“蔬果”变量和”服装”变量。如果原始数据中的某一行”分类”是”日常用品”，则”日常用品”变量为1，而”蔬果”和”服装”变量为0。

下面这个表格是正常的商品表

商品名称	商品ID	价格	分类
手帕纸	1001	1$	日常用品
T恤	1002	10$	服装
火龙果	1003	5$	蔬果

下面这个改动后的商品表则是使用分类这个哑变量

商品名称	商品ID	价格	分类_日常用品	分类_服装	分类_蔬果
手帕纸	1001	1$	1	0	0
T恤	1002	10$	0	1	0
火龙果	1003	5$	0	0	1

哑变量替换（Dummy Variable Replacement）指的是将原始的分类变量使用哑变量编码替换成数值形式。这种替换方式常用于机器学习模型的训练和其他数据分析任务，因为大部分算法需要处理数值数据。

在Pandas中，使用
pd.get_dummies
函数可以方便地将包含分类数据的DataFrame或Series转换成哑变量形式。它会自动识别分类数据并生成相应的哑变量。其中某个分类的取值用1表示，其余分类的取值用0表示。

语法:pd.get_dummies(data, prefix=None, prefix_sep=‘_’, columns=None, drop_first=False, dtype=None)

pd.get_dummies(
    # 转换的变量列，若不指定则为全部列
    data
    # 哑变量名称前缀,str或列表，用于指定生成的哑变量列名的前缀。默认为None，即不添加前缀。
    prefix = None
    # 用于指定前缀与原始列名之间的分隔符
    prefix_sep = '_'
    # 设置空值的哑变量
    dummy_na = False
    # 转换的原始列名，若不指定则为全部列
    columns = None
    # 是否丢弃第一列，因为若后面的列全为0，反向说明省去的列为1，则第一列可舍去
    drop_frist = False
	# 数据类型，用于指定生成哑变量列的数据类型。默认为None，即自动推断数据类型。
	dtype = None
)

In[6]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表
print(df) # 打印一下案例数据表
print(pd.get_dummies(data=df.学科领域)) # 只打印以学科领域为哑变量列的表

out[6]:

        大学名称   排名   地区   学科领域    排名依据
0       哈佛大学    1   北美     工程    学术声誉
1       牛津大学    2   欧洲     医学    科研产出
2       北京大学    3   亚洲     商学   国际影响力
3       悉尼大学    4  大洋洲  计算机科学    教学质量
4      圣保罗大学    5   南美     艺术   学生满意度
..       ...  ...  ...    ...     ...
95   圣保罗国立大学   96   南美  计算机科学  研究生录取率
96   约翰内斯堡大学   97   非洲   环境科学    学术声誉
97     麦吉尔大学   98   北美     艺术   学生满意度
98  伦敦政治经济学院   99   欧洲     法律   国际影响力
99      东京大学  100   亚洲     教育  毕业生就业率

[100 rows x 5 columns]

	医学	商学	工程	教育	法律	环境科学	社会科学	经济学	艺术	计算机科学
0	0	0	1	0	0	0	0	0	0	0
1	1	0	0	0	0	0	0	0	0	0
2	0	1	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0	1
4	0	0	0	0	0	0	0	0	1	0
…	…	…	…	…	…	…	…	…	…	…
95	0	0	0	0	0	0	0	0	0	1
96	0	0	0	0	0	1	0	0	0	0
97	0	0	0	0	0	0	0	0	1	0
98	0	0	0	0	1	0	0	0	0	0
99	0	0	0	1	0	0	0	0	0	0

100 rows × 10 columns

In[7]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表
print(df) # 打印案例表
print(pd.get_dummies(df, columns=["学科领域"])) # 打印包括学科领域哑变量列的所有数据

out[7]:

        大学名称   排名   地区   学科领域    排名依据
0       哈佛大学    1   北美     工程    学术声誉
1       牛津大学    2   欧洲     医学    科研产出
2       北京大学    3   亚洲     商学   国际影响力
3       悉尼大学    4  大洋洲  计算机科学    教学质量
4      圣保罗大学    5   南美     艺术   学生满意度
..       ...  ...  ...    ...     ...
95   圣保罗国立大学   96   南美  计算机科学  研究生录取率
96   约翰内斯堡大学   97   非洲   环境科学    学术声誉
97     麦吉尔大学   98   北美     艺术   学生满意度
98  伦敦政治经济学院   99   欧洲     法律   国际影响力
99      东京大学  100   亚洲     教育  毕业生就业率

[100 rows x 5 columns]

	大学名称	排名	地区	排名依据	学科领域_医学	学科领域_商学	学科领域_工程	学科领域_教育	学科领域_法律	学科领域_环境科学	学科领域_社会科学	学科领域_经济学	学科领域_艺术	学科领域_计算机科学
0	哈佛大学	1	北美	学术声誉	0	0	1	0	0	0	0	0	0	0
1	牛津大学	2	欧洲	科研产出	1	0	0	0	0	0	0	0	0	0
2	北京大学	3	亚洲	国际影响力	0	1	0	0	0	0	0	0	0	0
3	悉尼大学	4	大洋洲	教学质量	0	0	0	0	0	0	0	0	0	1
4	圣保罗大学	5	南美	学生满意度	0	0	0	0	0	0	0	0	1	0
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
95	圣保罗国立大学	96	南美	研究生录取率	0	0	0	0	0	0	0	0	0	1
96	约翰内斯堡大学	97	非洲	学术声誉	0	0	0	0	0	1	0	0	0	0
97	麦吉尔大学	98	北美	学生满意度	0	0	0	0	0	0	0	0	1	0
98	伦敦政治经济学院	99	欧洲	国际影响力	0	0	0	0	1	0	0	0	0	0
99	东京大学	100	亚洲	毕业生就业率	0	0	0	1	0	0	0	0	0	0

100 rows × 14 columns

In[8]:

print(pd.get_dummies(df, columns=["学科领域"], drop_first=True)) # 去掉第一列哑变量

out[8]:

	大学名称	排名	地区	排名依据	学科领域_商学	学科领域_工程	学科领域_教育	学科领域_法律	学科领域_环境科学	学科领域_社会科学	学科领域_经济学	学科领域_艺术	学科领域_计算机科学
0	哈佛大学	1	北美	学术声誉	0	1	0	0	0	0	0	0	0
1	牛津大学	2	欧洲	科研产出	0	0	0	0	0	0	0	0	0
2	北京大学	3	亚洲	国际影响力	1	0	0	0	0	0	0	0	0
3	悉尼大学	4	大洋洲	教学质量	0	0	0	0	0	0	0	0	1
4	圣保罗大学	5	南美	学生满意度	0	0	0	0	0	0	0	1	0
…	…	…	…	…	…	…	…	…	…	…	…	…	…
95	圣保罗国立大学	96	南美	研究生录取率	0	0	0	0	0	0	0	0	1
96	约翰内斯堡大学	97	非洲	学术声誉	0	0	0	0	1	0	0	0	0
97	麦吉尔大学	98	北美	学生满意度	0	0	0	0	0	0	0	1	0
98	伦敦政治经济学院	99	欧洲	国际影响力	0	0	0	1	0	0	0	0	0
99	东京大学	100	亚洲	毕业生就业率	0	0	1	0	0	0	0	0	0

100 rows × 13 columns

2.3 分段单元格替换

分段单元格替换（Binning）是一种在数据处理中常用的技术，它将连续的数值数据划分为若干个离散的区间，然后用相应的区间值来替换原始数据。这样可以将连续的数值数据转换为有序的分类数据，便于数据分析和可视化。

分段单元格替换通常用于数据的离散化，将数值数据按照一定规则划分成若干区间，然后将原始数据映射到相应的区间值。

在Pandas中，可以使用
cut()
函数来实现分段单元格替换。
cut()
函数接受一个Series对象和一个表示区间边界的列表，然后将Series中的数值映射到相应的区间。

假如现在我想要将原本1-100的排名替换成1-20，20-40，40-60，60-80，80-100五段来显示，那么我们能使用什么函数来达到这个目的呢？

语法:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)

pd.cut(
    # 分段的变量列名称
    x
    # 具体的分段设定,表示区间边界的列表，可以是整数表示区间的个数，也可以是自定义的边界值列表
    bin
    # 是否包括右边界 '[)'形式
    right = True
    # 给分段设置标签
    lables = None
    # 第一条记录是否包括左侧界值，当right不为True才有效果
    include_lowest = False
    # 是否返回划分后的区间边界值，默认为False。
	retbins = False 
	# 表示区间边界的精度，默认为3
	precision = 3
	# 处理重复的边界值。默认为'raise'，即如果有重复的边界值会抛出异常
	duplicates = 'raise'
)

In[9]:

df = pd.read_csv("university_rank.csv") # 读取案例数据表

# 对df的排名列进行分段处理 
df['排名'] = pd.cut(x=df['排名'], bins=[1, 20, 40, 60, 80, 100],
                  right=False, labels=["L1", "L2", "L3", "L4", "L5"])
print(df.head(40)) # 打印替换后的新DataFrame

out[9]:

	大学名称	排名	地区	学科领域	排名依据
0	哈佛大学	L1	北美	工程	学术声誉
1	牛津大学	L1	欧洲	医学	科研产出
2	北京大学	L1	亚洲	商学	国际影响力
3	悉尼大学	L1	大洋洲	计算机科学	教学质量
4	圣保罗大学	L1	南美	艺术	学生满意度
5	约翰内斯堡大学	L1	非洲	法律	毕业生就业率
6	麦吉尔大学	L1	北美	教育	校友网络
7	伦敦政治经济学院	L1	欧洲	经济学	国际化程度
8	东京大学	L1	亚洲	社会科学	研究生录取率
9	澳大利亚国立大学	L1	大洋洲	环境科学	科研经费
10	斯坦福大学	L1	北美	工程	研究成果
11	剑桥大学	L1	欧洲	医学	教学质量
12	清华大学	L1	亚洲	商学	校友网络
13	墨尔本大学	L1	大洋洲	计算机科学	学术声誉
14	圣保罗国立大学	L1	南美	艺术	学生满意度
15	约翰内斯堡大学	L1	非洲	法律	国际影响力
16	麦吉尔大学	L1	北美	教育	毕业生就业率
17	伦敦政治经济学院	L1	欧洲	经济学	科研产出
18	东京大学	L1	亚洲	社会科学	国际化程度
19	澳大利亚国立大学	L2	大洋洲	环境科学	研究生录取率
20	加州理工学院	L2	北美	工程	学术声誉
21	巴黎高等师范学院	L2	欧洲	医学	科研产出
22	香港大学	L2	亚洲	商学	国际影响力
23	奥克兰大学	L2	大洋洲	计算机科学	教学质量
24	里约热内卢大学	L2	南美	艺术	学生满意度
25	约翰内斯堡大学	L2	非洲	法律	毕业生就业率
26	约翰内斯堡大学	L2	非洲	工程	研究成果
27	麦吉尔大学	L2	北美	医学	教学质量
28	伦敦政治经济学院	L2	欧洲	社会科学	国际化程度
29	东京大学	L2	亚洲	艺术	学生满意度
30	澳大利亚国立大学	L2	大洋洲	法律	毕业生就业率
31	斯坦福大学	L2	北美	经济学	校友网络
32	剑桥大学	L2	欧洲	工程	科研产出
33	清华大学	L2	亚洲	医学	学术声誉
34	墨尔本大学	L2	大洋洲	商学	教学质量
35	圣保罗国立大学	L2	南美	计算机科学	研究生录取率
36	约翰内斯堡大学	L2	非洲	环境科学	学术声誉
37	麦吉尔大学	L2	北美	艺术	学生满意度
38	伦敦政治经济学院	L2	欧洲	法律	国际影响力
39	东京大学	L3	亚洲	教育	毕业生就业率

3. 结束语

如果有疑问欢迎大家留言讨论，你如果觉得这篇文章对你有帮助可以给我一个免费的赞吗？我们之间的交流是我最大的动力！

原文链接：https://blog.csdn.net/Zchengjisihan/article/details/132037867