前言
在一些情况下,数据不太均衡,这时候我们需要对数据集进行随机的抽样,而Pandas库中自带了抽样的方法
一、函数介绍
# 参数介绍
# n:要抽取的行数
# frac:当我们需要抽取数据的百分比时,我们需要用到这个参数。
# 注意:frac和n参数不可以同时使用。
# replace: 是否允许重复抽样,默认情况下为False
# weights:代表的是每个样本的权重。
# random_state: 随机种子,给定一个具体的数字,保证每次抽样的数据都是相同的。
# axis: 选择抽取数据的是行还是列,axis=0时抽取的是行,axis=1的时候抽取的是列。默认情况下axis=0,即抽取的是行。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
二、函数使用
import pandas as pd
# mean:抽取样本20000行,允许重复抽样,随机种子选取为666,可以调整random_state来让自己的实验效果达到很好。
df.sample(n=20000, replace=True, random_state=666)
参考文章:
总结
中午没有睡觉,真的很困。
版权声明:本文为weixin_42475060原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。