Graphlab是一个非常强大的解决ML问题的工具,对于大规模的数据处理具有很大的优势,最近在学习Coursera上的课程,用到Graphlab,做个总结。
- 
     导入
 
 import graphlab
 
- 
读入文件 graphlab.SFrame('aaa.csv') graphlab.SFrame('file_name')#Graphlab格式的文件
- 
在IPython Notebook内展示图形曲线 graphlab.canvas.set_target('ipynb') sales.show(view="Scatter Plot", x="sqft_living", y="price")
- 
数据集划分 train_data,test_data = sales.random_split(.8,seed=0)
- 
ML方法 
 training & predict
 - 线性回归
 sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None) sqft_model.predict(house2)- 逻辑回归
 sentiment_model = graphlab.logistic_classifier.create(train_data, target='sentiment', features=['word_count'], validation_set=test_data) giraffe_reviews['predicted_sentiment'] = sentiment_model.predict(giraffe_reviews, output_type='probability')
 评估
 sqft_model.evaluate(test_data) sqft_model.get('coefficients') sqft_model['coefficients']
- 
常用操作 #逻辑操作 products = products[products['rating'] != 3] #添加新列 products['sentiment'] = products['rating'] >=4 #排序 giraffe_reviews = giraffe_reviews.sort('predicted_sentiment', ascending=False)
 
版权声明:本文为haiming_yeyeye原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
