网络爬虫——urllib(1)

前言🍭

❤️❤️❤️网络爬虫专栏更新中,各位大佬觉得写得不错,支持一下,感谢了!❤️❤️❤️

前篇简单介绍了什么是网络爬虫及相关概念,这篇开始讲解爬虫中的第一个库——urllib。

urllib🍭

urllib是python标准库中的一个模块,提供了一些用于处理URL的功能。

使用urllib可以进行URL的解析、发送HTTP请求、文件下载等操作。

1、urllib的基本使用🍉

使用urIlib来获取百度首页的源码🍓

# 使用urI1ib来获取百度首页的源码
import urllib.request
# (1)定义一个urI 赢是你要访问的地址
url = 'http://www.cssjc.com/1b423a8a92dd4282bda064a676263d86.png" width="462">

# 使用urI1ib来获取百度首页的源码
import urllib.request
# (1)定义一个urI 赢是你要访问的地址
url = 'http://www.cssjc.com/77a8eb44bb574834b8c9565609405c2e.png" width="836">

2、一个类型六个方法🍉

一个类型🍓

为什么要讲一个类型呢?因为后面要讲的一个库叫request库,request库也有相对应的响应,但是它的类型不一样,为了进行一个对比,才进行这样的一个讲解。

import urllib.request

url = "http://www.cssjc.com/e94594d9c85a4f1aa9a6bac2d22bfa0a.png" width="557">

下载图片🍓

import urllib.request

# 下载图片
url_img="https://profile-avatar.csdnimg.cn/82351d3cb9754fda97cb85258d7e74a0_m0_63951142.jpg!1"
urllib.request.urlretrieve(url_img, filename="tx.jpg")

把我的头像链接输入,下载下来: 

下载视频🍓

再找到里面的src

这就是我们的视频地址 

import urllib.request

# 下载网页
# url_page = "http://www.cssjc.com/6ce1395e7f4d45a597d3d7bd96384f61.png" width="267">

下载好了之后我们在pycharm是打不开的,得去本地文件中找:

点击就可以看了: 

转载请说明出处内容投诉
CSS教程_站长资源网 » 网络爬虫——urllib(1)

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买
ICP备案号:蜀ICP备2023023382号

Powered By Z-BlogPHP 1.7.3