代码编织梦想

爬取小说

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.common.exceptions import TimeoutException
import pymongo

# 将chromedriver.exe放在当前py同一目录
driver = Chrome(service=Service(executable_path=r"chromedriver.exe"))
# 对比得出小说总长度为1-2363
# https://www.00ksw.com/html/1/1170/14041.html
# https://www.00ksw.com/html/1/1170/14042363.html
url = "https://www.00ksw.com/html/1/1170/14041.html"
# 打开要爬取小说的网页的第一页
driver.get(url)
# 等待10秒时间。如果在10秒内找到元素,则立即继续执行;
# 如果10秒内没有找到元素,将会抛出一个 NoSuchElementException 异常
# driver.implicitly_wait(10)
# 设置页面加载超时时间为30秒
driver.set_page_load_timeout(30)
content=[]
# 连接创建数据库与集合
client = pymongo.MongoClient()
db = client.get_database("lingdian")
collection=db.get_collection("蛊真人")
# 循环爬取所有章节
i = 1
while i < 2364:
    print(f"正在爬取第{i}页")
    # 提取每章的标题名
    title = driver.find_element(By.XPATH, '//*[@id="nr_content"]/div[2]/h3').text
    # 提取每章的段落内容
    datas = driver.find_elements(By.XPATH, '//*[@id="articlecontent"]/p')
    # 存放段落内容的文本信息
    text=[]
    for data in datas:
        text.append(data.text)
    # 每提取一章就存入数据库一章
    collection.insert_one({"title":title,"datas":text})
    try:
        # 点击下一章
        driver.find_element(By.XPATH, '// div[ @ id = "nr_content"] / div[7] / a[4]').click()
    except TimeoutException:
        driver.get(f"https://www.00ksw.com/html/1/1170/1404{i+1}.html")
    i += 1
# 关闭数据库
client.close()
print("爬取结束")

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/2301_78319341/article/details/142149381

scrapy+selenium爬取网页数据并存入mongodb数据库-爱代码爱编程

(一)安装selenium: pip3 install selenium (二)下载chromedriver 使用chrome浏览器做自动化,根据本身浏览器的版本下载相对应的chromedriver 可以到http://chromedriver.storage.googleapis.com/index.html 下载对应的版本 (三)新建爬虫 进入

python爬取数据并存储数据库_python Selenium爬取内容并存储至MySQL数据库的实现代码...-爱代码爱编程

前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium爬取我的个人博客信息,然后存储在数据库MySQL中,以便对数据进行分析,比如分析哪个时间段发表的博客多、结合WordCloud分析文章的主题、文章阅读量排

python 爬虫源码 selenium并存储数据库_使用pythonSelenium爬取内容并存储MySQL数据库的实例图解...-爱代码爱编程

这篇文章主要介绍了python Selenium爬取内容并存储至MySQL数据库的实现代码,需要的朋友可以参考下 前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium爬取我的个人博客信息,然后存储在数据库

python:使用selenium爬取51job(前程无忧)并将爬取数据存储到MySql数据库中的代码实例-爱代码爱编程

         自己捣鼓了几天写的代码,基本上把51job的岗位相关的数据都爬下来了,可以视要求自行增减,代码虽然有些简陋,不过我爬取的时候没报什么错。代码适合初学者学习使用,废话不多说,代码如下: from selenium.webdriver.support import expected_conditions as EC from seleniu

python爬虫之使用selenium爬取京东商品信息并把数据保存至mongodb数据库-爱代码爱编程

1.使用工具 python3 pymongo mongodb selenium chrome浏览器 2.具体分析 2.1 URL分析 打开京东首页,在搜索框任意输入一个商品名称,这里以华为最新发布的手机华为p50为例,点击搜索,页面如下所示: 可能会出现登录界面,可以先登录一下: 进入首页后,先记录首页链接,然后连续下滑,可以看到翻页的地

使用 selenium 爬取动态网页内容,并保存到数据库中-爱代码爱编程

使用 selenium 爬取动态网页内容,并保存到数据库中 一、本章介绍二、环境准备1.selenium2.chromedriver3.MongoDB 三、项目实现1.使用 selenium 打开目标网

运用selenium爬取京东商品数据储存到mysql数据库中-爱代码爱编程

使用Selenium爬取京东商品数据并存储到MySQL数据库中的过程可以分为几个步骤: 1. 准备工作 安装所需库 确保你已经安装了Python环境以及以下库: selenium:用于自动化浏览器操作。pymysql

selenium与数据库结合:数据爬取与存储的技术实践-爱代码爱编程

目录 一、Selenium与数据库结合的基础概念 1.1 Selenium简介 1.2 数据库简介 1.3 Selenium与数据库结合的优势 二、Selenium爬取数据的基本步骤 2.1 环境准备 2.2 编写爬虫代码 2.3 数据提取 2.4 异常处理 三、数据存储到数据库 3.1 数据库连接 3.2 数据存储 3.3 批量

selenium-爱代码爱编程

1web-selenium 简介 可解决:回归测试,压力测试,兼容性测试 工具:QTP(收费,支持web,桌面软件自动化),Selenium(免费,开源,支持web),Robot framework(基于python的

python selenium库学习使用实操二-爱代码爱编程

系列文章目录 Python selenium库学习使用实操 文章目录 系列文章目录前言一、模拟登录二、表单录入 前言 在上一篇文章中,我们完成Selenium环境的搭建,和简单的自动化。

python-爱代码爱编程

# -*-coding:UTF-8 -*- import webbrowser as web from selenium import webdriver #pip install selenium -i https://pypi.douban.com/simple/ #python.exe -m pip install --upgrade pip -i

如何利用selenium爬取电商网站的数据信息并存储到mysql数据库中_selenium爬取商品信息-爱代码爱编程

在课堂上,老师给我们布置了一项作业,如何利用selenium爬取电商网站的商品数据信息,并将其存储到mysql数据库中,目标网站是网商园,毕竟大的电商网站反爬技术比较高,爬取难度也比较大,下面是详细代码 from selenium import webdriver from selenium.webdriver.common.keys import Ke