手把手教你使用Python网络爬虫下载一本小说(附源码)
moboyou 2025-07-13 09:09 2 浏览
大家好,我是Python进阶者。
前言
前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。
一、小说下载
如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。
只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。
二、具体实现
这里直接丢大佬的代码了,如下所示:
# coding: utf-8
'''
笔趣网小说下载
仅限用于研究代码
勿用于商业用途
请于24小时内删除
'''
import requests
import os
from bs4 import BeautifulSoup
import time
def book_page_list(book_id):
'''
通过传入的书号bookid,获取此书的所有章节目录
:param book_id:
:return: 章节目录及章节地址
'''
url = 'http://www.biquw.com/book/{}/'.format(book_id)
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
response = requests.get(url, headers)
response.encoding = response.apparent_encoding
response = BeautifulSoup(response.text, 'lxml')
booklist = response.find('div', class_='book_list').find_all('a')
return booklist
def book_page_text(bookid, booklist):
'''
通过书号、章节目录,抓取每一章的内容并存档
:param bookid:str
:param booklist:
:return:None
'''
try:
for book_page in booklist:
page_name = book_page.text.replace('*', '')
page_id = book_page['href']
time.sleep(3)
url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
response_book = requests.get(url, headers)
response_book.encoding = response_book.apparent_encoding
response_book = BeautifulSoup(response_book.text, 'lxml')
book_content = response_book.find('div', id="htmlContent")
with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:
f.write(book_content.text.replace('\xa0', ''))
print("当前下载章节:{}".format(page_name))
except Exception as e:
print(e)
print("章节内容获取失败,请确保书号正确,及书本有正常内容。")
if __name__ == '__main__':
bookid = input("请输入书号(数字):")
# 如果书号对应的目录不存在,则新建目录,用于存放章节内容
if not os.path.isdir('./{}'.format(bookid)):
os.mkdir('./{}'.format(bookid))
try:
booklist = book_page_list(bookid)
print("获取目录成功!")
time.sleep(5)
book_page_text(bookid, booklist)
except Exception as e:
print(e)
print("获取目录失败,请确保书号输入正确!")
程序运行之后,在控制台输入书号,即可开始进行抓取了。
在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。
三、常见问题
在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。
这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。
四、总结
我是Python进阶者。这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
相关推荐
- jQuery EasyUI使用教程:创建展开行详细编辑表单的CRUD应用
-
当切换datagrid视图到"detailview"时,用户可以展开一行来显示该行下面的任何详细信息。此功能允许用户为放置在行详细信息面板中的编辑表单提供恰当的布局。在本教程中,我们使用DataGri...
- 前端入门——html 表单控件使用(html表单组件)
-
上篇介绍了表单的使用,表单有很多控件,比如输入框,密码框、文本域,按钮等。按类型可分如下:输入类控件菜单类控件输入类组件——input此类控件有很多种类型,使用<inputtype=...
- [北大青鸟广州新嘉华]HTML5 表单属性有哪些?(1)
-
在编写HTML5页面时,我们很多时候都需要用到表单属性,那么HTML5作为一个新晋IT界红人,HTML5表单属性有哪些呢?今天先来分享一下其中的<form>/<input>...
- JavaScript FormData 对象(js file对象)
-
下面的代码创建了一个空的FormData对象:varformData=newFormData();//CurrentlyemptyFormData.append()FormData...
- 「layui」表单验证:验证注册(表单验证是什么)
-
注册界面手动验证获取短信验证码代码原文<!DOCTYPEhtml><htmllang="zh"><head>&...
- php使用file_get_contents(‘php://input‘)和$_POST的区别
-
为什么和第三方平台对接接口的时候,在接收http请求数据包时,一般都是用file_get_contents("php://input"),而不是用$_POST呢?file_get_co...
- 专为Vue打造的开源表单验证框架,Github star7k+——VeeValidate
-
介绍vee-validate是Vue.js的基于模板的验证框架,可以验证输入并显示错误。基于模板,只需为每个输入值更改时指定应使用哪种验证器。系统会在支持40多种语言环境的情况下自动生成错误。现成的规...
- 如何通过FORScan修改福特汽车系统模块内置数据
-
如何在Windows电脑或平板电脑上使用FORScan进行各种调整或编程MOD。FORScan与多个蓝牙或Wi-FiOBD适配器兼容。我个人建议您使用vlinkerMC蓝牙或vlinerMCW...
- PHP如何上传文件(php中实现文件上传需要用到哪几个函数)
-
文件上传是网站开发中常见的功能之一,它可以使用户轻松上传图片、音频、视频等文件。在PHP中,实现文件上传也非常简单。下面为大家介绍具体的步骤,让你的网站功能更加强大。步骤一:创建文件上传表单首先,我们...
- PHP入门读书笔记(十六):WEB页面使用PHP
-
Web表单主要用来在网页中发送数据到服务器,经过程序处理中,将用户所需要的信息再传递给客户端的浏览器上。这样就形成了一个浏览者和网站之间的一个互动。一、表单的提交方式<formname=’NA...
- 前端入门——html 表单(前端的表单是怎么实现的)
-
前言前面已经学习相关html大部分知识,基本上可以制作出简单的页面,但是这些页面都是静态的,一个网站如果要实现用户的互动交流,这时表单就起到关键的作用,表单的用途很多,它主要用来收集用户的相关信息,是...
- HTML表单4(form的action、method属性)——零基础自学网页制作
-
表单的工作过程表单的信息发送与处理过程可以简单的进行图示,如下图。以注册会员为例,用户在自己的电脑上打开相应的注册表单页面填写信息,完成填写后点击提交按钮,也就是图中1所示过程。这时浏览器会将这些信息...
- 为你的WordPress widget建立表单(wordpress divi)
-
通过之前的三部分教程我们已经创建了一个自己的WordPresswidget。今天我们将给大家介绍如何为你的widget创建表单,以至于WordPress可以及时的更新widget设置。为widget...
- 如何使用PHP编写一个简单的留言板?
-
留言板是一个常见的Web应用程序,允许用户在网站上发布和查看留言。在本文中,我们将使用PHP编写一个简单的留言板,介绍构建过程中的关键步骤和技巧。一、准备工作在开始编写留言板之前,我们需要准备好以下工...
- 3分钟拥有一个属于自己的博客网站「腾讯云篇」
-
一、前言想要搭建一个让全世界的人都可以访问的网站,我们最少需要准备三样东西:①服务器腾讯云服务器首年低至40元/年,「链接」阿里云服务器新用户可以免费使用6个月,新人特惠_云产品推荐_云服务器-阿里云...
- 一周热门
- 最近发表
-
- jQuery EasyUI使用教程:创建展开行详细编辑表单的CRUD应用
- 前端入门——html 表单控件使用(html表单组件)
- [北大青鸟广州新嘉华]HTML5 表单属性有哪些?(1)
- JavaScript FormData 对象(js file对象)
- 「layui」表单验证:验证注册(表单验证是什么)
- php使用file_get_contents(‘php://input‘)和$_POST的区别
- 专为Vue打造的开源表单验证框架,Github star7k+——VeeValidate
- 如何通过FORScan修改福特汽车系统模块内置数据
- PHP如何上传文件(php中实现文件上传需要用到哪几个函数)
- PHP入门读书笔记(十六):WEB页面使用PHP
- 标签列表
-
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle安装补丁 (19)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- 网站管理平台php源码 (19)
- php小说爬取源码 (23)
- github好玩的php项目 (18)
- 云电脑app源码 (22)
- js创建txt文件 (18)