代码编织梦想

前言

今天用一个实际案例来演示怎样将爬虫提取到的数据保存到MySQL中,
我们需要将如下内容(红框中)保存至MySQL中。
在这里插入图片描述#

一、用到的python模块

import requests #网络请求模块
from parsel import Selector #数据解析模块
import pymysql #python操作MySQL的模块

二、分析网页

先打开开发者工具抓包
在这里插入图片描述
分析得知该网络请求的响应为静态内容且没有请求参数加密
尝试用插件提取所需数据
在这里插入图片描述

三. 用代码创建数据库

db = pymysql.connect(host='localhost',user='root',password='密码',port=3306,database='ceshi1')
cursor = db.cursor()
sql = 'create table 红楼梦 (标题 char(50),品类 char(25),书店 char(25),地址 char(25),价格 char(25))'
try:
    cursor.execute(sql)
    print('创建数据库成功')
except Exception as e:
    print('创建数据库失败')

四.发送请求并解析数据

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
url = 'https://item.kongfz.com/book/51144142.html'

res = requests.get(url=url,headers=headers).text
selector = Selector(res)
lis = selector.xpath('//ul[@class="itemList"]/li')
data = []
for li in lis:
    info = {
        'title' : li.xpath('./div[2]/a/text()').get(),
        'category' : li.xpath('./div[4]/text()').get(),
        'bookstore' : li.xpath('./div[5]/div[1]/a/text()').get().strip('\n, '),
        'site' : li.xpath('./div[5]/div[2]/text()').get(),
        'price' : li.xpath('./div[6]/div[1]/span/text()').get()
    }
    data.append(info)

五.写入MySQL

for i in data:
    title = i['title']
    category = i['category']
    bookstore = i['bookstore']
    site = i['site']
    price = i['price']
    sql_1 = "insert into 红楼梦(标题,品类,书店,地址,价格) value (%s,%s,%s,%s,%s)"
    try:
        cursor.execute(sql_1,(title,category,bookstore,site,price))
        db.commit()
    except Exception as e:
        print(e)
        print('数据写入失败')
cursor.close()
db.close()

在图形化软件中查看结果
在这里插入图片描述

总结

本案例展示了如何将爬虫提取的结果写入MySQL中,感兴趣的小伙伴赶快去试试吧。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_43122187/article/details/135102571

爬取数据到mysql数据库存储数据-爱代码爱编程

今天,我跟大家分享一波从爬取数据到mysql的数据存储。这次,我选择的案例网址是:https://news.sina.com.cn/(新浪新闻),我截取新闻其中一个小部分来爬取,来简单阐述怎么将爬取的数据存储到数据库中。 这是要爬取的内容,我只爬取标题和标题对应的链接。完整代码如下: #encoding='utf-8' #Author:Mr.Pan_学狂

python re.split_如何使用python语言的re模块方法split截取字符-爱代码爱编程

在JavaScript中,可以使用split方法对字符串进行截取;相应的,在python语言中的re模块也有split方法。 工具/原料 python pycharm 截图工具 台式机 方法/步骤 1 打开pycharm工具,新建python文件,导入re模块并调用split方法,将结果赋值给a1 2 保存代码并运行文件,查看控制台打印结果 3 再次

mysql储存爬虫数据_爬虫分析之数据存储——基于MySQL,Scrapy-爱代码爱编程

配置MySql 关于MySQL在Ubuntu的Pycharm上的配置,可以参考这篇文章中的第三部分 如果上面的步骤处理完毕后找不到你新建的数据库, 可以参照下图配置 勾选要显示的Schemas(数据库集合) 数据存储需要用到pymysql模块, 在File->Settings中找到如图的设置页面,点击加号搜索pymysql并安装

nutch2.3 mysql_Nutch Crawler抓取数据并存储到MySQL-爱代码爱编程

Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照 Nutch官方网站 给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完成了指定网

数据爬取存入mysql数据库_python_qb的博客-爱代码爱编程

目录 创建test数据库 创建test的数据库 ''' 创建数据库 ''' self.mydb = pymysql.connect( host="localhost", user="你的用户名", password="你的密码" ) self.mycursor = self.mydb.cursor() #游标 self.mycursor.exe

【爬虫】将爬取的内容写入mysql数据库_fx_2003的博客-爱代码爱编程

本文目录   内容简介: 一、什么是MySQLdb? 二、如何安装MySQLdb? 三、基本操作 插入  四、将爬取的内容写入: 1、爬取目标:标题 2、分析 3、代码如下: 4、爬取内容如下:     内容简介: 本文将爬取的内容存入sql数据库 简单介绍了以下MySqldb 一、什么是MySQLdb?

爬取数据并写入mysql数据库_get sample data to mysql-爱代码爱编程

1.爬取思路总结概述:         a.请求网页,获取json数据:request函数         b.使正则re 模块,提取出 { {……} }信息所在部分的字典 :re.search()         c.为了防止连续请求中出现,IP被封的风险,将数据保存到文件中,实现数据永久化存储         d.读取文件中的数据,数据筛选,提

爬虫学习(06): 数据存储_mysql篇_爬虫数据存储mysql-爱代码爱编程

一、mysql简介1. 安装python连接mysql的模块 -> pymysql模块2. pymysql导包: 二、mysql基本操作1. 创建表2. 修改表3. 在navicat中实现创建

python爬虫(selenium)从网站获取信息并存入数据库(mysql)_python 爬取网页内容并保存到数据库-爱代码爱编程

简介: 在本篇博客中,我们将介绍如何使用Python编写一个简单的网络爬虫,从指定网站上获取图书信息,并将这些信息存入数据库。这个项目涉及到Python编程、selenium爬虫技术以及数据库操作等内容,适合对这些领域感兴趣的初学者。 1. 什么是网络爬虫? 网络爬虫(也称为网络蜘蛛、网络机器人)是一种自动获取网页内容的程序,它模拟人的行为去各个网站抓取

python,爬虫,把数据写进mysql数据库_论文编写爬虫采集需要的数据,把数据进行清洗,集成、转换、脱敏后写入mysql数-爱代码爱编程

学习了一段时间的爬虫,然后写了一个较为简陋的爬虫 先说一下,理论知识,后面上我的代码 :) 首先,你要先把你的项目文件,连接到数据库才可以,要不然就用不了SQL语句了 第一步: 第二步: 第三步:根据提示自己填好就行了,如果有问题可能是数据库版本的问题,建议5.7的 爬虫把数据写进数据库的方法通常包括以下步骤: 连接到数据库:

爬取数据存储到mysql_将爬虫数据保存到mysql中-爱代码爱编程

 连接到数据库pymysql.connect.cursor→创建表CREAT TABLE IF NOT EXISTS→获取网页内容requests.get→解析网页中的链接parsel.Selector.css('a::attr(href)').getall()→将找到的链接插入到数据库INSERT IGNORE INTO import requests

pymysql将爬取到的信息存储到数据库中_爬取的数据并在数据库中显示-爱代码爱编程

爬取平台为电影天堂 获取到的数据仅为测试学习而用 爬取内容为电影名和电影的下载地址 创建表时需要建立三个字段即可 import urllib.request import re import pymysql def film_exists(film_name, film_link): """判断插入的数据是否已经存在"""