sklearn.model_selection.train_test_split

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options)

主要参数说明：

*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集