python3抓取网页数据的代码示例

2023年4月18日19:41:17Python代码

Python 3 抓取网页数据的方法有很多种，其中比较常用的有以下几种方法：

使用 urllib 库：urllib 是 Python 内置的 HTTP 请求库，可以用来发送 HTTP 请求和处理 HTTP 响应。使用 urllib 库抓取网页数据的代码示例如下：

import urllib.request
url = 'https://www.example.com'
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
print(html)

使用 requests 库：requests 是一个第三方 HTTP 请求库，比 urllib 更加容易使用和灵活。使用 requests 库抓取网页数据的代码示例如下：

import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
print(html)

使用 BeautifulSoup 库：BeautifulSoup 是一个第三方 HTML 解析库，可以方便地从 HTML 文档中提取数据。使用 BeautifulSoup 库抓取网页数据的代码示例如下：

import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取标题和正文
title = soup.title.string
content = soup.body.p.string
print(title)
print(content)

使用 Scrapy 框架：Scrapy 是一个 Python 网络爬虫框架，可以帮助开发者高效地从网页中提取数据。使用 Scrapy 框架抓取网页数据需要编写 Scrapy 的爬虫程序，代码示例如下：

import scrapy
class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://www.example.com']
    def parse(self, response):
        # 提取标题和正文
        title = response.xpath('//title/text()').get()
        content = response.xpath('//body/p/text()').get()
        print(title)
        print(content)

以上是常用的 Python 3抓取网页数据的方法，根据具体需求和场景选择合适的方法即可。需要注意的是，在进行网页数据抓取时，应当遵守相关法律法规和网站的使用协议，不得进行未经授权的网页爬取和数据挖掘。

抓取数据

04/18

基于python的网页数据抓取的实现原理

04/27

为什么说学爬虫容易坐牢

04/18

php抓取网页内容的代码

04/18

python实现抓取股票数据代码示例