使用requests库和urlretrieve下载pdf文件
moboyou 2025-06-13 07:56 8 浏览
一、代码如下:
import requests #导入请求库
from urllib.request import urlretrieve #从urllib.request导入下载函数urlretrieve
import re,time #导入正则库和时间库
from lxml import etree #从lxml导入etree类
def gethtml(): #定义函数gethtml用来下载pdf文件
url="http://www.gov.cn/zhengce/pdfFile/downloadFile.htm" #设置请求网址
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
} #设置请求头headers
response=requests.get(url,headers=headers) #通过headers伪装对网站url进行get请求,并将响应内容赋值给response变量
response.encoding=response.apparent_encoding #根据网页内容解析出网页的编码格式并赋值给响应的编码变量response.encoding
html=response.text #将网页的相应的文本内容赋值给html
html=etree.HTML(html) #对html构造了一个XPath解析对象并对自动修正并赋值给html
result=html.xpath('//tbody/tr') #使用xpath找到tr标签并赋值给result
urllist=[] #定义接收网址的空列表urllist
for info in result: #遍历result里的变量info
try: #尝试操作
urllist.append("http://www.gov.cn"+info.xpath('./td[2]/a/@href')[-1]) #将解析到的td标签的href属性值的最后一个元素与"http://www.gov.cn"相加并添加到列表urllist中
except: #当接收到错误时,
continue #继续执行
# print(urllist)
for downurl in urllist: #遍历urllist列表中的网址downurl
urlretrieve(downurl,"E://IT/PYthon/PYTHON试验/gov/"+downurl.split("/")[-1]) #下载网址downurl,并保存到本机的E://IT/PYthon/PYTHON试验/gov/文件夹下面,文件名用下载网址的最后切割的名称
print("E://IT/PYthon/PYTHON试验/gov/"+downurl.split("/")[-1]+"下载成功") #打印下载成功
time.sleep(0.1) #每执行一次下载休眠0.1秒
gethtml() #调用gethtml函数
二、代码运行结果如下:
E://IT/PYthon/PYTHON试验/gov/PDF_ALL.zip下载成功
E://IT/PYthon/PYTHON试验/gov/2020_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2019_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2018_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2017_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2016_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2015_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2014_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2013_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2012_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2011_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2010_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2009_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2008_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2007_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2006_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2005_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2004_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2003_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2002_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2001_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/2000_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1999_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1998_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1997_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1996_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1995_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1994muLu.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1994_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1993_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1992muLu.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1992_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1991_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1990_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1989_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1988_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1987_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1986_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1985_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1984_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1983_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1982_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1981_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1980_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1979_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1978_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1973_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1971_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1970_PDF.pdf下载成功
E://IT/PYthon/PYTHON试验/gov/1969_PDF.pdf下载成功
三、代码和代码运行结果如下图所示:
最终保存到本机的数据如下图所示:
相关推荐
- Scrcpy:一款免费、功能丰富且实用的Android镜像投屏控制软件
-
随着科技的不断发展,我们的生活中出现了越来越多的智能设备。尤其是智能手机,已经成为了我们日常生活中不可或缺的一部分。然而,有时候我们需要在电脑上操作手机,例如进行应用程序的调试、游戏挂机等。这时,拥有...
- 考公网课资源百度云网盘,公务员国考省考网课视频资源链接
-
考公网课资源百度云网盘,公务员国考省考网课视频资源链接大家好,国考将近,又到一年一度的大家冲刺的时候了,大家准备考公网课资源怎么样呢?今天来聊一聊,就是我作为一个集众多公考劣势于一身的人,是如何通过自...
- 百度推送收录工具【2025最全教程】
-
目录第一步:百度推送token获取第二步:百度推送token填写第三步:导入百度推送链接第四步:开始百度批量链接推送百度推送token获取如下图登录百度站长管理平台获取百度token注:百度token...
- 2025年公务员笔试网课视频资料百度云网盘分享(...
-
2025年公务员笔试网课视频资料百度云网盘分享(国考省考通用)2025年公务员笔试网课视频资料备考,很多小伙伴都开始了准备。有同学询问如何有效进行备考计划。考虑到在职备考的同学较多,我今天给每天有三个...
- 技术控:免百度云客户端突破下载速度
-
首先要说大神们这篇文章你可以忽视了估计方法你早就知道了首先放张图看到小编在没有使用百度云会员登陆的情况下用我们这次要介绍的下载利器IDM下载文件的时候下载速度已经达到了2.1MB/...
- 2022年中级会计师考试各科目网课视频教程百度网盘下载
-
2022年中级会计师各科目精讲班视频课件资料百度云网盘下载中级会计师资料包含:基础班/精讲班/习题班/冲刺班/押题班电子版教材适合有/无基础,需系统学习的考生中级会计师备考资料下载地址:www.34l...
- Python学不会来打我(34)python函数爬取百度图片_附源码
-
随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...
- 自研雪狼引擎!百度杀毒3.0正式版评测
-
2014年10月22日,百度杀毒3.0正式版终于发布了!相比旧版,百度杀毒3.0最大的两大在于百度自家研发的雪狼杀毒引擎和冰山防御体系。如果说旧版百度杀毒的主打方向是卡巴芯保安全,那么新版的百度杀毒3...
- 百度云抢票功能怎么用 12306抢火车票攻略
-
【PConline资讯】之前我们介绍了多款抢火车票的辅助软件,这一次咱就来说一说百度浏览器出品的“云抢票功能”。百度云抢票(抢票王)功能是百度浏览器针对用户需求设计的抢火车票辅助功能,它具有“网速保...
- vue.js正确使用百度地图的方案
-
方案一:1.在index.html,加入2.在vue.config.js,配置configureWebpack:config=>{config.externals={'BM...
- SEO优化之网站怎么实现百度秒收录
-
何谓“秒收录”?大家可以经常看到,在许多大网站上,发布的新文章和外链在极短的几分钟时间内被百度索引和收录,这种现象称为“秒收”。一个网站要想关键词有排名,必须先收录!同样的一篇文章,收录快的网站,排名...
- 5分钟实现一个百度网盘资源搜索引擎,不用写代码
-
作者:msay来源:https://www.cnblogs.com/mingjiatang/p/6048193.html本文主要介绍如何通过Google的API来定义自己的搜索引擎,并将Google搜...
- 软网推荐:巧用播放器为百度网盘下载提速
-
现在国内可以选择的网络硬盘越来越少,可以选择的也只有百度网盘等极少的几家。但是百度网盘的限制也越来越多,即使是在文件下载方面也做了很多的限制,这样给用户的文件下载造成了非常大的困难。今天笔者就为大家介...
- JavaScript中10个“过时”的API,你的代码里还在用吗?
-
JavaScript作为一门不断发展的语言,其API也在持续进化。新的、更安全、更高效的API不断涌现,而一些旧的API则因为各种原因(如安全问题、性能瓶颈、设计缺陷或有了更好的替代品)被标记为“废...
- HTML5入门
-
什么是HTML5官方概念:HTML5草案的前身名为WebApplications1.0,是作为下一代互联网标准,用于取代html4与xhtml1的新一代标准版本,所以叫html5。它增加了新的标...
- 一周热门
- 最近发表
- 标签列表
-
- curseforge官网网址 (16)
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle 数据导出导入 (16)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle修改端口 (15)
- 左连接 oracle (15)
- oracle 转义字符 (14)
- oracle安装补丁 (19)
- matlab归一化 (16)
- 共轭梯度法matlab (16)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- c语言编程小知识大全 (17)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)