python 常用包_七月在线—Python和数据分析Lesson 1

  • Post author:
  • Post category:python


写在前面

偶尔间看到朋友推荐这门课程,出于好奇打开看了一下课程目录,感觉对于想系统学习一下Python数据分析的朋友是不错的入门课程。于是也加入学习了一下。

目前看了第一课时,感觉很不错。附课程目录。

b3edf704f31b6d64cdec1103decfa8f2.png

一、本节课知识点

第一课对新手相当友好,从Python安装、环境变量配置到常用软件和Python常用包安装等都有比较详细和重点的讲解。

  1. 建议安装Anaconda,可以管理多个Python版本环境,并且安装好了许多常用Python包。对于后续开发比较友好。

2. Jupyter Notebook对于数据分析非常方便,它交互式的界面和即时输出可以实时看到数据处理结果。

3.常用数据分析Python包

3.1 numpy

提供常用的数值数组、矩阵等函数

数据结构:ndArray

优点:

(1)基于向量化的运算

(2)进行数值运算时Numpy数组比list效率高

39be468b90e785b565cd71029072c395.png
构建ndArray对象

numpy.linalg.det()

numpy.linalg.det() 函数计算输入矩阵的行列式。

行列式在线性代数中是非常有用的值。 它从方阵的对角元素计算。 对于 2×2 矩阵,它是左上和右下元素的乘积与其他两个的乘积的差。

换句话说,对于矩阵[[a,b],[c,d]],行列式计算为 ad-bc。 较大的方阵被认为是 2×2 矩阵的组合。

实例

import numpy as np a = np.array([[1,2], [3,4]]) print (np.linalg.det(a))

输出结果为:

-2.0

3.2 pandas

是一种构建与Numpy的高级数据结构和精巧工具,快速简单的处理数据。

数据结构:Series和DataFrame

(1)支持自动或明确的数据对齐的带有标签轴的数据结构

(2)整合的时间序列功能

(3)以相同的数据结构来处理时间序列和非时间序列

(4)支持传递元数据的算术运算和缩减

(5)灵活处理丢失数据

(6)在常用的基于数据的数据库(eg:SQL)中的合并和其他关系操作

5bbdf1f521960c4c47f2d9a63dce0cbd.png
构建Series对象
776f5f82b1cbba36a1002c8b644f8a87.png
构建Data Frame对象

3.3 scipy

科学计算库

3.4 matplotlib

Python绘图库

可以在数据探查观察时进行可视化输出,直观查看数据分布和规律,也方便观察异常值

fae2c675f0876129bedffb3c00133018.png

442d4d0041021c33af81bb2f34915f2b.png

4 常用高级数据分析包

4.1 nltk 自然语言处理工具包

安装:pip install -U nltk

下载语料库:nltk.download()

应用:

文本提取、词汇切分、词频分析、词袋模型和情感分析

4.2 igraph 图计算和社交网络分析

安装:pip install -U python-igragh

4.3 Scikit-learn

用于机器学习的Python模块。

安装:pip install -U scikit-learn

二、收获

通过这堂课,了解到了Python数据分析的基本环境和常用工具及模块。

三、进阶

下一步要熟练运用numpy、pandas、sklearn等常用包。