爬虫入门第4课:定义代理IP的数据模型类

  • Post author:
  • Post category:其他


爬虫学习知识点及案例篇(汇总):


爬虫入门第1课:代理池概述及开发环境


爬虫入门第2课:代理池的设计


爬虫入门第3课:实现代理池思路

本阶段带大家从代理池的设计开始,学习Python爬虫及项目实战,详情关注上方专栏 ↑↑↑



  • 目标

    : 定义代理IP的数据模型类

  • 步骤

    :

    • 定义

      Proxy

      类, 继承object
    • 实现

      __init__

      方法, 负责初始化, 包含如下字段:

      • ip: 代理的IP地址
      • port: 代理IP的端口号
      • protocol: 代理IP支持的协议类型,http是0, https是1, https和http都支持是2
      • nick_type: 代理IP的匿名程度, 高匿:0, 匿名: 1, 透明:2
      • speed: 代理IP的响应速度, 单位s
      • area: 代理IP所在地区
      • score: 代理IP的评分, 用于衡量代理的可用性; 默认分值可以通过配置文件进行配置. 在进行代理可用性检查的时候, 每遇到一次请求失败就减1份, 减到0的时候从池中删除. 如果检查代理可用, 就恢复默认分值
      • disable_domains: 不可用域名列表, 有些代理IP在某些域名下不可用, 但是在其他域名下可用
    • 在配置文件: settings.py 中 定义MAX_SCORE = 50, 表示代理IP的默认最高分数
    • 提供

      __str__

      方法, 返回数据字符串

  • 代码

    :

# 代理模型类, 用于封装代理相关信息
class Proxy(object):
    def __init__(self, ip, port, protocol=-1, nick_type=-1,speed=-1, area=None, score=50, disable_domains=[]):
        self.ip = ip    # IP
        self.port = port # 端口号
        self.protocol = protocol   # 代理IP支持协议类型,http是0, https是1, https和http都支持是2
        self.nick_type = nick_type #  匿名程度:高匿:0,匿名: 1, 透明:0
        self.speed = speed # 速度, 单位s
        self.area = area   # 所在地区
        self.score = score # 代理IP的评分, 在进行代理可用性检查的时候, 每遇到一次请求失败就减1份, 减到0的时候从池中删除. 如果检查代理可用, 就恢复默认分值
        self.disable_domains = disable_domains

    def __str__(self):
        # 返回数据字符串
        return str(self.__dict__)


  • 总结

    • 定义类
    • 指定初始的字段
    • 在settings.py文件中配置代理IP的最大分数。



版权声明:本文为itcast_cn原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。