前言🍭
❤️❤️❤️网络爬虫专栏更新中,各位大佬觉得写得不错,支持一下,感谢了!❤️❤️❤️
前篇简单介绍了什么是网络爬虫及相关概念,这篇开始讲解爬虫中的第一个库——urllib。
urllib🍭
urllib是python标准库中的一个模块,提供了一些用于处理URL的功能。
使用urllib可以进行URL的解析、发送HTTP请求、文件下载等操作。
1、urllib的基本使用🍉
使用urIlib来获取百度首页的源码🍓
# 使用urI1ib来获取百度首页的源码
import urllib.request
# (1)定义一个urI 赢是你要访问的地址
url = 'http://www.cssjc.com/1b423a8a92dd4282bda064a676263d86.png" width="462">
# 使用urI1ib来获取百度首页的源码
import urllib.request
# (1)定义一个urI 赢是你要访问的地址
url = 'http://www.cssjc.com/77a8eb44bb574834b8c9565609405c2e.png" width="836">
2、一个类型六个方法🍉
一个类型🍓
为什么要讲一个类型呢?因为后面要讲的一个库叫request库,request库也有相对应的响应,但是它的类型不一样,为了进行一个对比,才进行这样的一个讲解。
import urllib.request
url = "http://www.cssjc.com/e94594d9c85a4f1aa9a6bac2d22bfa0a.png" width="557">
下载图片🍓
import urllib.request
# 下载图片
url_img="https://profile-avatar.csdnimg.cn/82351d3cb9754fda97cb85258d7e74a0_m0_63951142.jpg!1"
urllib.request.urlretrieve(url_img, filename="tx.jpg")
把我的头像链接输入,下载下来:
下载视频🍓
再找到里面的src
这就是我们的视频地址
import urllib.request
# 下载网页
# url_page = "http://www.cssjc.com/6ce1395e7f4d45a597d3d7bd96384f61.png" width="267">
下载好了之后我们在pycharm是打不开的,得去本地文件中找:
点击就可以看了: