返回顶部

如何使用requests获取网页文本内容?

[复制链接]
CoisiniLv.9 显示全部楼层 发表于 2021-11-12 17:31:00 |阅读模式 打印 上一主题 下一主题
  环境安装

  python3.7.1

  pip install requests

  pip install beautifulsoup4

  pip install lxml

  技术讲解

  requests库

  requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。

  在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。

  如何使用requests库来模拟浏览器的行为来获取页面内容呢?

  示例代码如下:

[Python] 纯文本查看 复制代码
import requests
web = requests.get('https://www.baidu.com')  #向百度发起一次get请求,返回请求结果的实体类
print(web.status_code)    #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索
print(type(web.content))    #页面内容的数据类型是bytes,因此需要解码
print(type(web.content.decode()))
print(web.content.decode())    #解码之后,得到的页面内容是结构化的字符串


  这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。

  html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。

  html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。

  其基本格式就是:

[Python] 纯文本查看 复制代码
<html>

<head>...</head>

<body>...<body>

<script>...</script>

<style>...</style>

</html>


  html文本的标签一般都是成双成对,有始有终的,比如<body>和</body>是一队,千万不能拆散,拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。

  这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等

  在test.html里我们写入一下代码并且保存。

[Python] 纯文本查看 复制代码
<html>

<body>

<h1>我的网站</h1>

<p>这是我的网站</p>

</body>

</html>


  beautifulsoup4库

  bs4(简称)库是用于解析格式化文本,提取数据用的库。

  我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。

  解析的示例代码如下:

[Python] 纯文本查看 复制代码
from bs4 import BeautifulSoup

html = '''<html>

<body>

<h1>我的网站</h1>

<p>这是我的网站</p>

<body>

</html>'''    #从网页拿到html的格式化的字符串,保存到html里

soup = BeautifulSoup(html, 'lxml')    #使用lxml解析器来解析文本,html和xml格式是类似的

print(soup.find_all('h1'))    #使用find_all函数来找所有的h1标签,返回的结果是数组

print(soup.find_all('p'))    #找所有的p标签,返回的结果是数组



更复杂一点的,比如



from bs4 import BeautifulSoup

html = '''<html>

<body>

<h1>我的网站</h1>

<p>这是我的网站</p>

<div class='test-item'>

测试1

</div>

<div class='test-item'>

测试2

</div>

<body>

</html>'''

soup = BeautifulSoup(html, 'lxml')

div_tags = soup.find_all(name='div', attrs={'class': 'test-item'})

for tag in div_tags:

    print(type(tag))

    print(tag)

    print(tag.string)

    print(tag.attrs, '\n')


  注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

达内教育:成立于2002年。致力于面向IT互联网行业,培养软件开发工程师、测试工程师、系统管理员、智能硬件工程师、UI设计师、网络营销、会计等职场人才 达内使命:缔造年轻人的中国梦、缔造达内员工的中国梦 达内愿景:做管理一流的教育公司
  • 商务合作

  • Powered by Discuz! X3.4 | Copyright © 2002-2024, 达内教育 Tedu.cn
  • 京ICP备08000853号-56 |网站地图