网页转pdf,这个工具真好用
moboyou 2025-06-13 07:56 8 浏览
前两天有个客户需要把网页转为pdf,之前也没开发过类似的工具,就在百度搜索了一波,主要有下面三种
- 在线转pdf
- 使用浏览器打印功能转pdf
- 使用本地软件工具转pdf
在线转pdf
在百度(我一般用必应)搜索“在线网页转pdf”就有很多可以做这个事的网站,免费的如
- PDF24Tools
各种pdf的操作都有,免费使用,速度一般。
官网地址
https://tools.pdf24.org/zh
- doctron
开源免费项目,使用golang写的,提供在线转
官网地址
http://doctron.lampnick.com/
还有挺多其他的,可以自己搜索,但是都不符合我的预期。
使用浏览器打印功能转pdf
- 在浏览器右键,点击打印或者ctrl+p
- 在弹出的打印对话框中找到目标打印机选择“另存为PDF”
- 点击“保存”按钮即可下载pdf了
使用本地软件工具转pdf
Doctron,这是我今天要介绍的重头戏。
Doctron是基于Docker、无状态、简单、快速、高质量的文档转换服务。目前支持将html转为pdf、图片(使用chrome(Chromium)浏览器内核,保证转换质量)。支持PDF添加水印。
- 使用chrome内核保证高质量将HTML转为pdf/图片。
- 简易部署(提供docker镜像,Dockerfile以及k8s yaml配置文件)。支持丰富的转换参数。转为pdf和图片支持自定义大小。
- 无状态服务支持。
管他的,先把代码下载下来再说
git clone https://gitcode.net/mirrors/lampnick/doctron.git
运行
go build
./doctron --config conf/default.yaml
转pdf,访问
http://127.0.0.1:8080/convert/html2pdf?u=doctron&p=lampnick&url=<url>,更换链接中的url为你需要转换的url即可。
然后就可以写程序去批量转换需要的网页了,但是我需要转换的网页有两个需求
1、网站需要会员登录,不然只能看得到一部分
2、需要把网站的头和尾去掉的
这就为难我了,不会go语言啊,硬着头皮搞了,肯定有个地方打开这个url的,就去代码慢慢找,慢慢调试,功夫不负有心人,终于找到调用的地方了。
第一步:添加网站用户登录cookie
第二步:去掉网站头尾
chromedp.Evaluate(`$('.header').css("display" , "none");
$('.btn-group').css("display" , "none");
$('.container .container:first').css("display" , "none");
$('.breadcrumb').css("display" , "none");
$('.footer').css("display" , "none")`, &ins.buf),
打开网页后执行js代码把头尾隐藏掉
第三步:程序化,批量自动生成pdf
public static void createPDF(String folder , String cl , String pdfFile, String urlhref) {
try {
String fileName = pdfFile.replace("/", ":");
String filePath = folder + fileName;
File srcFile = new File(filePath);
File newFolder = new File("/Volumes/disk2/myproject" + File.separator + cl);
File destFile = new File(newFolder, fileName);
if(destFile.exists()){
return;
}
if(srcFile.exists()){
//移动到对应目录
if(!newFolder.exists()){
newFolder.mkdirs();
}
FileUtils.moveFile(srcFile , destFile);
return;
}
if(!newFolder.exists()){
newFolder.mkdirs();
}
String url = "http://127.0.0.1:8888/convert/html2pdf?u=doctron&p=lampnick&url="+urlhref;
HttpEntity<String> entity = new HttpEntity<String>(null, null);
RestTemplate restTemplate = new RestTemplate();
ResponseEntity<byte[]> bytes = restTemplate.exchange(url, HttpMethod.GET, entity, byte[].class);
if (bytes.getBody().length <= 100) {
if(urlList.containsKey(urlhref)){
Integer failCount = urlList.get(urlhref);
if(failCount > 3){
System.out.println("下载失败:" + cl + " / " + pdfFile +" " + urlhref);
return;
}
failCount++;
urlList.put(urlhref , failCount);
}else{
urlList.put(urlhref , 1);
}
createPDF(folder , cl , pdfFile , urlhref);
}else{
if (!destFile.exists()) {
try {
destFile.createNewFile();
} catch (Exception e) {
e.printStackTrace();
}
}
try (FileOutputStream out = new FileOutputStream(destFile);) {
out.write(bytes.getBody(), 0, bytes.getBody().length);
out.flush();
} catch (Exception e) {
e.printStackTrace();
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
最终成果:
相关推荐
- Scrcpy:一款免费、功能丰富且实用的Android镜像投屏控制软件
-
随着科技的不断发展,我们的生活中出现了越来越多的智能设备。尤其是智能手机,已经成为了我们日常生活中不可或缺的一部分。然而,有时候我们需要在电脑上操作手机,例如进行应用程序的调试、游戏挂机等。这时,拥有...
- 考公网课资源百度云网盘,公务员国考省考网课视频资源链接
-
考公网课资源百度云网盘,公务员国考省考网课视频资源链接大家好,国考将近,又到一年一度的大家冲刺的时候了,大家准备考公网课资源怎么样呢?今天来聊一聊,就是我作为一个集众多公考劣势于一身的人,是如何通过自...
- 百度推送收录工具【2025最全教程】
-
目录第一步:百度推送token获取第二步:百度推送token填写第三步:导入百度推送链接第四步:开始百度批量链接推送百度推送token获取如下图登录百度站长管理平台获取百度token注:百度token...
- 2025年公务员笔试网课视频资料百度云网盘分享(...
-
2025年公务员笔试网课视频资料百度云网盘分享(国考省考通用)2025年公务员笔试网课视频资料备考,很多小伙伴都开始了准备。有同学询问如何有效进行备考计划。考虑到在职备考的同学较多,我今天给每天有三个...
- 技术控:免百度云客户端突破下载速度
-
首先要说大神们这篇文章你可以忽视了估计方法你早就知道了首先放张图看到小编在没有使用百度云会员登陆的情况下用我们这次要介绍的下载利器IDM下载文件的时候下载速度已经达到了2.1MB/...
- 2022年中级会计师考试各科目网课视频教程百度网盘下载
-
2022年中级会计师各科目精讲班视频课件资料百度云网盘下载中级会计师资料包含:基础班/精讲班/习题班/冲刺班/押题班电子版教材适合有/无基础,需系统学习的考生中级会计师备考资料下载地址:www.34l...
- Python学不会来打我(34)python函数爬取百度图片_附源码
-
随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...
- 自研雪狼引擎!百度杀毒3.0正式版评测
-
2014年10月22日,百度杀毒3.0正式版终于发布了!相比旧版,百度杀毒3.0最大的两大在于百度自家研发的雪狼杀毒引擎和冰山防御体系。如果说旧版百度杀毒的主打方向是卡巴芯保安全,那么新版的百度杀毒3...
- 百度云抢票功能怎么用 12306抢火车票攻略
-
【PConline资讯】之前我们介绍了多款抢火车票的辅助软件,这一次咱就来说一说百度浏览器出品的“云抢票功能”。百度云抢票(抢票王)功能是百度浏览器针对用户需求设计的抢火车票辅助功能,它具有“网速保...
- vue.js正确使用百度地图的方案
-
方案一:1.在index.html,加入2.在vue.config.js,配置configureWebpack:config=>{config.externals={'BM...
- SEO优化之网站怎么实现百度秒收录
-
何谓“秒收录”?大家可以经常看到,在许多大网站上,发布的新文章和外链在极短的几分钟时间内被百度索引和收录,这种现象称为“秒收”。一个网站要想关键词有排名,必须先收录!同样的一篇文章,收录快的网站,排名...
- 5分钟实现一个百度网盘资源搜索引擎,不用写代码
-
作者:msay来源:https://www.cnblogs.com/mingjiatang/p/6048193.html本文主要介绍如何通过Google的API来定义自己的搜索引擎,并将Google搜...
- 软网推荐:巧用播放器为百度网盘下载提速
-
现在国内可以选择的网络硬盘越来越少,可以选择的也只有百度网盘等极少的几家。但是百度网盘的限制也越来越多,即使是在文件下载方面也做了很多的限制,这样给用户的文件下载造成了非常大的困难。今天笔者就为大家介...
- JavaScript中10个“过时”的API,你的代码里还在用吗?
-
JavaScript作为一门不断发展的语言,其API也在持续进化。新的、更安全、更高效的API不断涌现,而一些旧的API则因为各种原因(如安全问题、性能瓶颈、设计缺陷或有了更好的替代品)被标记为“废...
- HTML5入门
-
什么是HTML5官方概念:HTML5草案的前身名为WebApplications1.0,是作为下一代互联网标准,用于取代html4与xhtml1的新一代标准版本,所以叫html5。它增加了新的标...
- 一周热门
- 最近发表
- 标签列表
-
- curseforge官网网址 (16)
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle 数据导出导入 (16)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle修改端口 (15)
- 左连接 oracle (15)
- oracle 转义字符 (14)
- oracle安装补丁 (19)
- matlab归一化 (16)
- 共轭梯度法matlab (16)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- c语言编程小知识大全 (17)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)