首页>比特动态>IP代理如何爬取网站?
IP代理如何爬取网站?

    一些基本概念: IP代理 池其实就是一堆可以用来做代理访问的Pool,作为ServiceProvider它对外提供可用的IP代理及端口。


IP代理如何爬取网站?


    IP代理从隐藏级别上分三类:


    透明代理,服务器知道你用了代理,但同时也知道你的 真实IP ,说白了是不以隐藏自己IP为目的使用的,比如翻墙什么的;


    普通代理,服务器也知道你用了代理,但不知道你的真实IP;


    高匿代理,服务器不知道你用了代理,更不知道你的真实IP其中高匿代理指 代理服务器 不向目标服务器传递X_FORWARDED_FOR变量Python的实现方式设计思路和原理思路就是从目前提供代理服务的网站获取可使用的IP、端口、代理类型信息,并检测可用性,然后对外提供服务。


    IP代理,<a href= 代理IP


    , http代理 ,代理服务器" src="/media/uploads/2019/10/10/1109486950.jpg" width="500" height="500">


    功能模块;ProxyWebsite-目标抓取的代理服务网站Crawler-抓取模块,通过HTTP来抓取定向代理服务网站内容Extrator-抽取模块,将HTML页面内容,抽取成结构化数据Data-数据模块,为结构化数据存储服务Validator-检验模块,检查代理的可用性Service-对外提供RESTAPI服务。