代码编织梦想

声明:本篇所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本篇博客所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本篇内容而引起的任何法律责任,作者不承担任何责任。使用本篇的内容即表示您同意本免责声明的所有条款和条件。

调教kimi,写出来如下的代码,测试通过。具体网站请仔细看代码注释。
效果入下:
在这里插入图片描述

#!/usr/bin/env python
# -*- coding:utf-8 -*-
###
# File: /Users/simonliu/Documents/book/novel.py
# Project: /Users/simonliu/Documents/book
# Created Date: 2024-05-29 22:50:33
# Author: Simon Liu
# -----
# Last Modified: 2024-05-30 10:16:39
# Modified By: Simon Liu
# -----
# Copyright (c) 2024 SimonLiu Inc.
# 
# May the force be with you.
# -----
# HISTORY:
# Date      	By	Comments
# ----------	---	----------------------------------------------------------
###
import requests
from bs4 import BeautifulSoup
import re
import os

# 自定义请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

def get_book_title(chapter_list_url):
    response = requests.get(chapter_list_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 从<meta property="og:title" content="......"/>标签中提取书名
    meta_tag = soup.find('meta', property="og:title")
    if meta_tag and "content" in meta_tag.attrs:
        return meta_tag['content']
    return "Unknown Book Title"

def get_chapter_content(chapter_url):
    response = requests.get(chapter_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 从<div id="content">标签中提取正文
    content_div = soup.find('div', id="content")
    if content_div:
        # 获取正文文本,并删除以“笔趣阁 www.52bqg.info”开头的那一行内容
        chapter_text = content_div.get_text(separator='\n')
        chapter_text = re.sub(r'^笔趣阁 www\.52bqg\.info.*\n', '', chapter_text, flags=re.M)
        return chapter_text
    else:
        return "正文内容未找到"

def get_chapter_links(chapter_list_url):
    response = requests.get(chapter_list_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    chapter_links = soup.find_all('a', href=True)
    chapters = []

    chapter_pattern = re.compile(r'第(\d+)章')
    
    for link in chapter_links:
        link_text = link.text.strip()
        match = chapter_pattern.search(link_text)
        if match:
            chapter_number = int(match.group(1))
            if chapter_number >= 1:  # 确保是第1章或之后的章节
                chapters.append((link_text, link['href']))
                
    first_chapter_index = next((i for i, (title, _) in enumerate(chapters) if '第1章' in title), None)
    if first_chapter_index is not None:
        chapters = chapters[first_chapter_index:]
    
    return chapters

def save_chapters_to_file(chapters, book_title):
    filename = book_title + '.txt'
    with open(filename, 'w', encoding='utf-8') as file:
        for title, chapter_relative_url in chapters:
            chapter_url = chapter_list_url.rstrip('/') + '/' + chapter_relative_url.strip()
            chapter_text = get_chapter_content(chapter_url)
            
            # 打印章节信息到控制台
            print(f'章节标题: {title}')
            print(f'章节URL: {chapter_url}')
            # 计算中文汉字的字数
            chinese_chars = re.findall(r'[\u4e00-\u9fff]+', chapter_text)
            total_chars = sum(len(re.sub(r'[\n\t ]', '', line)) for line in chinese_chars)
            print(f'章节正文字数: {total_chars}\n')
            
            # 写入章节标题和正文到文件
            file.write(title + '\n')
            file.write(chapter_text)
            file.write('\n')  # 添加空行以分隔章节

    # 打印txt文件的名称和大小
    filesize = os.path.getsize(filename)
    print(f'文件已保存: {filename}')
    print(f'文件大小: {filesize} 字节')

def main():
    global chapter_list_url
    # 用户输入小说的章节列表页面URL
    chapter_list_url = input("请输入小说的章节列表页面URL: ")
    
    # 获取并打印书名
    book_title = get_book_title(chapter_list_url)
    print(f'书名: {book_title}')
    
    # 获取章节链接
    chapters = get_chapter_links(chapter_list_url)
    
    # 保存章节到文件
    save_chapters_to_file(chapters, book_title)

if __name__ == "__main__":
    main()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/toopoo/article/details/139316767

树莓派pigpio实现gpio中断(python版)-爱代码爱编程

说明:在这里对评论中的问题我统一做一个说明。 gpio的中断Edge设置和回调设置,是在代码中pi.callback(ir_pin, pigpio.RISING_EDGE, cb_func)实现。代码最后的try ... except KeyboardInterrupt只是python的一个异常处理写法,代码的核心功能不在这里,不写try ...

python爬取小说写入txt_Python爬取网络小说,并写入txt文件-爱代码爱编程

以爬取起点中文网免费页面为例讲解(以主神黑店为例讲解) 获取要爬取小说的第一章节的urlurl = https://read.qidian.com/chapter/CTxPsgzdPBfu4xLcYRGW6w2/7t9v4ciILvngn4SMoDUcDQ2 进行伪装,防止服务器不反回数据 headers = {'User-Agent':'Mozilla/

python爬取小说写入txt_Python爬虫爬取小说,并保存至本地文本文件中-爱代码爱编程

运行环境:Python3.6、Pycharm2017.3、Windows10 RS3、requests2.18.4、BeautifulSoup4.6.0 简介 运行效果展示 ① book136_singleprocess.py 单进程保存小说章节 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Auth

Python爬虫学习(7):将爬取的结果写入本地txt/csv/excel,保存到服务端Mysql数据库-爱代码爱编程

一、前言 本篇文章将上一篇爬取到的猫眼电影信息写入本地txt,csv,excel以及服务端的数据库 爬取猫眼电影:https://editor.csdn.net/md/?articleId=114581101 二、写入本地txt文件 1、方式一:使用print 定义写入文件函数: 调用写入文件函数: 运行结果: 2、方式二:使用文件对象.writ

python爬取网文存入txt文件-爱代码爱编程

文章目录 一、网络爬虫是什么?二、使用步骤1.引入库2.数据请求2.数据解析3.数据存储4.完整代码 一、网络爬虫是什么? 百度百科给出的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕

Python爬虫系列:爬取小说并写入txt文件-爱代码爱编程

导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了。 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能难倒小编吗?坚决不能滴。于是乎,自己动手丰衣足食,Python就是万能的好吧。 概要: 程序语言:python 第三方库:

向jupyter notebook插入图片并控制大小和对齐方式-爱代码爱编程

1. 插入网络图片的同时设置显示大小并进行对齐 将cell模式改为markdown,然后插入如下内容,并按shift+enter显示(请自行替换图片地址) <img src="https://www.domain.com/image_file_name.jpg" alt="ImageFile" style="width: 500px;" ali

arm64 ubuntu主机安装chromium和chromedriver-爱代码爱编程

谷歌浏览器至今没有推出ARM64版,如果你需要使用selenium跑浏览器自动化脚本,只有安装chromium+chromedriver。 1. 下载安装包 下面是Chromium下载页面: Chromium Docs

利用python爬取小说(附源码)-爱代码爱编程

用30行代码爬取某小说网站上的一篇小说。 完整源代码已打包,需要请移步文末领取 一、导入模块 import requests from lxml import etree import time 二、获取网站的响应

arm64(aarch64)下安装tensorflow_arm架构下安装tensorflow-爱代码爱编程

首先从Github下载安装包: tensorflow-on-arm 选择合适的版本,例如tensorflow-1.14.0-cp35-none-linux_aarch64.whl 命名规则:cp35代表python3.5,

chrome与chromedriver版本对应关系以及官方下载页面-爱代码爱编程

在使用selenium模拟chrome浏览器的时候,需要用chromedriver,他们之间有个版本的对应关系。就最近而言,chrome与chromedriver的大版本号都一样了。 Current Releases I

python爬虫实战 | 爬取网络中的小说_手机怎么爬虫晋江做txt-爱代码爱编程

网络文学是新世纪我国流行文化中的重要领域,年轻人对网络小说更是有着广泛的喜爱。本文以抓取网络小说正文为例编写一个简单、实用的爬虫脚本。 01 分析网页 很多人在阅读网络小说时都喜欢本地阅读,换句话说就是把小说下载到手机或

python爬取的数据存到txt文本文件中。_爬取动态网页并保存为txt-爱代码爱编程

首先咱们得有python基础并熟练使用python代码!!!!!!不说废话直接上代码. 第一步 # 导入requests库,用于发送HTTP请求 import requests # 导入BeautifulSoup库,用于解析HTML文档 from bs4 import BeautifulSoup 第二步 # 定义目标网站的URL # 目标网页