Kaggle入门——使用scikit-learn解决DigitRecognition问题

  • Post author:
  • Post category:其他



Kaggle入门——使用scikit-learn解决DigitRecognition问题



@author: wepon


@blog:

http://blog.csdn.net/u012162613


1、scikit-learn简介


scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包,采用Python语言编写,主要涵盖分类、





归和聚类等算法,例如


knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档


都非


常不


错,对于机器学习开发者来说,是一个使用方便而强大的工具,节省不少开发时间。





scikit-learn官网指南:

http://scikit-learn.org/stable/user_guide.html




上一篇文章

《大数据竞赛平台—Kaggle入门》

我分两部分内容介绍了Kaggle,在第二部分中,我记录了解决Kaggle上的竞赛项目DigitRecognition的整个过程,当时我是用自己写的kNN算法,尽管自己写歌kNN算法并不会花很多时间,但是当我们想尝试更多、更复杂的算法,如果每个算法都自己实现的话,会很浪费时间,这时候scikit-learn就发挥作用了,我们可以直接调用scikit-learn的算法包。当然,对于初学者来说,最好还是在理解了算法的基础上,来调用这些算法包,如果有时间,自己完整地实现一个算法相信会让你对算法掌握地更深入。



OK,话休絮烦,下面进入第二部分。




2、使用scikit-learn解决DigitRecognition



我发现自己很喜欢用DigitRecognition这个问题来练习分类算法,因为足够简单。如果你还不知道

DigitRecognition问题是什么,请先简单了解一下:

Kaggle DigitRecognition

,在我上一篇文章中也有描述:

《大数据竞赛平台—Kaggle入门》

。下面我使用scikit-learn中的算法包kNN(k近邻)、SVM(支持向量机)、NB(朴素贝叶斯)来解决这个问题,解决问题的关键步骤有两个:1、处理数据。2、调用算法。








(1)处理数据





这一部分与上一篇文章

《大数据竞赛平台—Kaggle入门》

中第二部分的数据处理是一样的,本文不打算重复,下面只简单地罗列各个函数及其功能,在本文最后部分也有详细的代码。







版权声明:本文为u012162613原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。