大内高手社区

标题: 如何使用requests获取网页文本内容? [打印本页]

作者: Coisini 时间: 2021-11-12 17:31
标题: 如何使用requests获取网页文本内容?
　　环境安装

　　python3.7.1

　　pip install requests

　　pip install beautifulsoup4

　　pip install lxml

　　技术讲解

　　requests库

　　requests一般用于发起http请求，并且拿到请求的结果。http常用的请求有两种，GET和POST，爬虫主要用的是GET请求。

　　在不懂http,https和dns,TCP/IP等协议的情况下，我直接打个比方来解释一下什么是GET请求，以360浏览器为例，人在360浏览器输入www.baidu.com，然后敲击enter键，直到页面出现，整个过程，我们可以抽象为我们向百度服务器发起的一次GET请求。

　　如何使用requests库来模拟浏览器的行为来获取页面内容呢?

　　示例代码如下:

[Python] 纯文本查看 复制代码

import requests

web = requests.get('https://www.baidu.com')  #向百度发起一次get请求，返回请求结果的实体类

print(web.status_code)    #请求返回的状态码，200是OK，404是页面不存在，500是错误，更多自己百度搜索

print(type(web.content))    #页面内容的数据类型是bytes，因此需要解码

print(type(web.content.decode()))

print(web.content.decode())    #解码之后，得到的页面内容是结构化的字符串

　　这样看起来，我们获取到的页面内容不是我们在浏览器看到的图形化界面，而是字符串，更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧，现在可以简单学一下，也就花几分钟了解一下就够用了。

　　html是一种标记语言，可以被浏览器执行，然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里，然后双击打开，你会看到图形化界面的，只不过有些图片可能显示不了，这里就不细说了。

　　html其实很好理解，不要想得太复杂，就是一段有规律的格式化的文本。

　　其基本格式就是:

[Python] 纯文本查看 复制代码

<html>



<head>...</head>



<body>...<body>



<script>...</script>



<style>...</style>



</html>

　　html文本的标签一般都是成双成对，有始有终的，比如<body>和</body>是一队，千万不能拆散，拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。

　　这里我们主要讲body标签，网页的主要内容都是在这个标签里显示的，比如标题，段落，图片等

　　在test.html里我们写入一下代码并且保存。

[Python] 纯文本查看 复制代码

<html>



<body>



<h1>我的网站</h1>



<p>这是我的网站</p>



</body>



</html>

　　beautifulsoup4库

　　bs4(简称)库是用于解析格式化文本，提取数据用的库。

　　我们利用requests库的get函数拿到网页的内容是一段格式化的字符串，接下来就可以用bs4来解析它。

　　解析的示例代码如下:

[Python] 纯文本查看 复制代码

from bs4 import BeautifulSoup



html = '''<html>



<body>



<h1>我的网站</h1>



<p>这是我的网站</p>



<body>



</html>'''    #从网页拿到html的格式化的字符串，保存到html里



soup = BeautifulSoup(html, 'lxml')    #使用lxml解析器来解析文本，html和xml格式是类似的



print(soup.find_all('h1'))    #使用find_all函数来找所有的h1标签，返回的结果是数组



print(soup.find_all('p'))    #找所有的p标签，返回的结果是数组







更复杂一点的，比如







from bs4 import BeautifulSoup



html = '''<html>



<body>



<h1>我的网站</h1>



<p>这是我的网站</p>



<div class='test-item'>



测试1



</div>



<div class='test-item'>



测试2



</div>



<body>



</html>'''



soup = BeautifulSoup(html, 'lxml')



div_tags = soup.find_all(name='div', attrs={'class': 'test-item'})



for tag in div_tags:



    print(type(tag))



    print(tag)



    print(tag.string)



    print(tag.attrs, '\n')

　　注意，tag保存的不是字符串，而是bs4模块中的一个标签实体类，我们主要需要知道它的attrs属性和string属性，方便我们拿到一些我们想要的文本和信息，比如a标签的href属性就保存在attrs里。

欢迎光临大内高手社区 (https://bbs.tedu.cn/)