大内高手社区

标题: Python爬虫为什么离不开海外HTTP代理的支持？ [打印本页]

作者: garry5544 时间: 2023-1-13 16:20
标题: Python爬虫为什么离不开海外HTTP代理的支持？

那么我们为什么需要海外HTTP代理呢？

1.使用http代理提高访问速度

http代理可以起到增加缓冲达到提高访问速度的目的，以通常代理服务器都会设置一个很大的缓冲区，这样当网站的信息经过时，就会保存下来相应的信息，下次再浏览同样的网站或者是同样的信息，就可以通过上次的信息直接调用，这样一来就很大程度上的提高了访问速度。其次，可以隐藏自己的真实ip，来防止自己受到恶意攻击。代理云http代理，可以解决抓取速度以及ip的问题。

2.使用http代理突破ip限制

在一个ip资源使用频率过高的时候，要想继续进行采集工作，就需要大量稳定的ip资源，网上免费的http代理资源有很多，但是第一你得花时间去找，第二就算你找的到大批的，但是不见得你能用的了。

如何设置使用海外HTTP代理？

1、urllib模块设置代理

如果我们频繁用一个IP去爬取同一个网站的内容，很可能会被网站封杀IP。其中一种比较常见的方式就是设置代理IP。

from urllib import request

proxy = 'http://39.134.93.12:80'

proxy_support = request.ProxyHandler({'http': proxy})

opener = request.build_opener(proxy_support)

request.install_opener(opener)

result = request.urlopen('http://baidu.com')

首先我们需要构建一个ProxyHandler类，随后将该类用于构建网页代开的opener的类，最后在request中安装openerhttps://www.smartproxy.cn/news/422.html

欢迎光临大内高手社区 (https://bbs.tedu.cn/)