随机抽样方法——DataFrame.sample() – 小飞侠

随机抽样方法——DataFrame.sample()

Post author:xfxia
Post published:2023年10月15日
Post category:其他

目录

前言
一、函数介绍
二、函数使用
总结

前言

在一些情况下，数据不太均衡，这时候我们需要对数据集进行随机的抽样，而Pandas库中自带了抽样的方法

一、函数介绍

# 参数介绍
# n：要抽取的行数
# frac：当我们需要抽取数据的百分比时，我们需要用到这个参数。
# 注意：frac和n参数不可以同时使用。
# replace: 是否允许重复抽样，默认情况下为False
# weights：代表的是每个样本的权重。
# random_state: 随机种子，给定一个具体的数字，保证每次抽样的数据都是相同的。
# axis: 选择抽取数据的是行还是列，axis=0时抽取的是行，axis=1的时候抽取的是列。默认情况下axis=0，即抽取的是行。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

二、函数使用

import pandas as pd
# mean：抽取样本20000行，允许重复抽样，随机种子选取为666，可以调整random_state来让自己的实验效果达到很好。
df.sample(n=20000, replace=True, random_state=666)

参考文章：

总结

中午没有睡觉，真的很困。

版权声明：本文为weixin_42475060原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_42475060/article/details/122473413