1. 理解和用法
首先ffm格式(主key,副key,1)数据如下:第一列是lable,后面是x(特征值)
举例2:3:1表示 源数据第2列,索引为3
源数据test.txt:(其中第8列是连续型特征没有离散化,其他列是离散型特征)
1 2:3:1 3:5:1 5:7:1 7:10:1 8:14:1.2
0 1:1:1 2:4:1 6:9:1 7:10:1 8:14:2.3
1 2:3:1 3:5:1 7:11:1 8:14:1.5
1 1:2:1 5:7:1 7:12:1 8:14:2.2 9:15:1
0 3:6:1 5:8:1 7:13:1 9:16:1
def libsvm_2_coo(libsvm_data, shape):
coo_rows = []
coo_cols = []
coo_data = []
n = 0
for x, d in libsvm_data:
coo_rows.extend(n)
coo_cols.extend(x)
coo_data.extend(d)
n += 1
coo_rows = np.array(coo_rows)
coo_cols = np.array(coo_cols)
coo_data = np.array(coo_data)
#coo_rows 即n 从1开始
#coo_col 即副key[ 3 5 7 10 14 1 4 9 10 14 3 5 11 14 2 7 12 14 15 6 8 13 16]
#c
版权声明:本文为ping550原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。