1. 理解和用法
首先ffm格式(主key,副key,1)数据如下:第一列是lable,后面是x(特征值)
举例2:3:1表示 源数据第2列,索引为3
源数据test.txt:(其中第8列是连续型特征没有离散化,其他列是离散型特征)
1 2:3:1 3:5:1 5:7:1 7:10:1 8:14:1.2
0 1:1:1 2:4:1 6:9:1 7:10:1 8:14:2.3
1 2:3:1 3:5:1 7:11:1 8:14:1.5
1 1:2:1 5:7:1 7:12:1 8:14:2.2 9:15:1
0 3:6:1 5:8:1 7:13:1 9:16:1
def libsvm_2_coo(libsvm_data, shape): coo_rows = [] coo_cols = [] coo_data = [] n = 0 for x, d in libsvm_data: coo_rows.extend(n) coo_cols.extend(x) coo_data.extend(d) n += 1 coo_rows = np.array(coo_rows) coo_cols = np.array(coo_cols) coo_data = np.array(coo_data) #coo_rows 即n 从1开始 #coo_col 即副key[ 3 5 7 10 14 1 4 9 10 14 3 5 11 14 2 7 12 14 15 6 8 13 16] #c
版权声明:本文为ping550原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。