代码编织梦想

在课堂上,老师给我们布置了一项作业,如何利用selenium爬取电商网站的商品数据信息,并将其存储到mysql数据库中,目标网站是网商园,毕竟大的电商网站反爬技术比较高,爬取难度也比较大,下面是详细代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import pymysql
from bs4 import BeautifulSoup
from time import sleep


#模拟登录
driver = webdriver.Chrome()
driver.get("https://www.wsy.com/member/login.htm?f=top&redirectURL=http%3A%2F%2Fwww.wsy.com%2F")
username_field = driver.find_element(By.ID, "TPL_username")
password_field = driver.find_element(By.ID, "TPL_password")
login_button = driver.find_element(By.XPATH, "//*[@id='login']")
username_field.send_keys("") #这里填你的网商园账号名
password_field.send_keys("")  #这里填写密码
login_button.click()

#让程序睡眠20秒,防止被检查出来是爬虫的风险,之后每一个sleep都是同样道理
sleep(20)


#连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='123456', database='aaa',charset='utf8',autocommit=True)
cursor = conn.cursor()


#这里是爬取操作,爬取了五个类目,每个类目的前十页
for page in range(1,11):
    #driver.get(f"https://www.wsy.com/category.htm?&cid=50000436 & page=  {page}")#T恤
    #driver.get(f"https://www.wsy.com/category.htm?&cid=50000557 & page=  {page}")#毛衣
    driver.get(f"https://www.wsy.com/category.htm?&cid=50010158 & page=  {page}")#夹克
    #driver.get(f"https://www.wsy.com/category.htm?&cid=50010159 & page=  {page}")#西装
    #driver.get(f"https://www.wsy.com/category.htm?&cid=50010160 & page=  {page}")#卫衣
    sleep(20)
    tshirts = driver.find_elements(By.XPATH, "//*[@id='goodslist']")
    tshirt_data = []

#遍历爬取网页中的每一个商品,将数据取出
    for i in range(1,49):
        for tshirt in tshirts:
            title = tshirt.find_element(By.XPATH, f"//*[@id='goodslist']/div[{i}]/div/div[2]/a").text
            price = tshirt.find_element(By.XPATH, f"//*[@id='goodslist']/div[{i}]/div/div[3]/div[1]/strong").text
            sales_count = tshirt.find_element(By.XPATH, f"//*[@id='goodslist']/div[{i}]/div/div[3]/div[2]/span").text
            tshirt_data.append({
                "ID": i,
                "商品名": title,
                "商品品类": "夹克",
                "商品价格": price,
                "商品销售数量": sales_count
            })
            print(f"已爬取 {len(tshirt_data)} 条夹克销量数据")

#将爬取到的数据存储到MySQL数据库中   
  insert_sql = f"INSERT INTO t桖 (ID, 商品名, 商品品类, 商品价格, 商品销售数量) VALUES ('{tshirt_data[i-1].get('ID')}','{tshirt_data[i-1].get('商品名')}','{tshirt_data[i-1].get('商品品类')}','{tshirt_data[i-1].get('商品价格')}','{tshirt_data[i-1].get('商品销售数量')}')"
        cursor.execute(insert_sql)
    conn.commit()
cursor.close()
conn.close()

到最后就可以实现将网站每个商品的数据采集存储到数据库中了

这里是新人程序菜鸟云起风程,麻烦看到这篇文章的大佬们多多点赞,支持一下!

新人菜鸟在这里不胜感激!给诸位磕一个了!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_74833839/article/details/135427812

使用python + selenium爬取淘宝商品信息-爱代码爱编程

因为淘宝是动态网页,很多商品的数据是动态加载的,所以我们就无法使用爬取静态页面的方式来抓取淘宝商品信息。这里我使用了自动化测试工具selenium来爬取动态页面的商品信息。这里有几个需要注意的地方,因为淘宝首页打开首先是二维码登录界面,所以为了直接通过程序实现登录,我们要利用指令 find_element_by_id('J_Quick2Static').

【爬虫】python+scrapy+selenium简单爬取淘宝天猫商品信息及评论_秦岭翠竹的博客-爱代码爱编程

(转载请注明出处) 哈喽,大家好~ 前言:当时写这个小脚本的目的是为了给老师帮个小忙,爬取某一商品的信息,写完觉得这个程序似乎也可以用在更普遍的地方,所以就放出来给大家看看啦,然后因为是在很短时间写的,所以自然有很多不足之处,想着总之实现了功能再说吧,代码太丑大不了之后再重构吧(不存在的),另外时间也过了很久了我估计这个程序现在应该是已经爬不了了,不过

利用selenium爬取淘宝商品信息_baidu_252253的博客-爱代码爱编程

# coding: utf-8 from selenium import webdriver import time # 1.创建浏览器对象 driver = webdriver.Firefox() # 2.打开淘宝首页 driver.get('http://www.taobao.com') # 3.找到搜索输入框 search_ele = driver.

python爬虫——用selenium爬取淘宝商品信息_清风化煞_的博客-爱代码爱编程

python爬虫——用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdri

采集网页数据保存到mysql数据库-爱代码爱编程

一、直接采集一个本地网页文件 1.创建一个网页文件data413.html(注:文件的路径后面还会用到) 2.网页文件data413.html中的内容为: <html> <head> <title>搜索指数</title> </head> <body> <

使用 selenium 爬取动态网页内容,并保存到数据库中-爱代码爱编程

使用 selenium 爬取动态网页内容,并保存到数据库中 一、本章介绍二、环境准备1.selenium2.chromedriver3.MongoDB 三、项目实现1.使用 selenium 打开目标网

小白学 python 爬虫:selenium 获取某大型电商网站商品信息_python爬虫电商列表和详情页-爱代码爱编程

目标 先介绍下我们本篇文章的目标,如图: 本篇文章计划获取商品的一些基本信息,如名称、商店、价格、是否自营、图片路径等等。 准备 首先要确认自己本地已经安装好了 Selenium 包括 Chrome ,并已经配

python淘宝网页爬虫数据保存到 csv和mysql(selenium)-爱代码爱编程

 数据库连接设置(表和字段要提前在数据库中建好) # 数据库中要插入的表 MYSQL_TABLE = 'goods' # MySQL 数据库连接配置,根据自己的本地数据库修改 db_config = { 'host': 'localhost', 'port': 3306, 'user': 'root', 'passw

python爬虫实战:selenium爬取电商平台商品数据_1. 电商网站商品信息爬取 目标:爬取电商网站上的商品信息,如标题、价格、销-爱代码爱编程

目标 先介绍下我们本篇文章的目标,如图: 本篇文章计划获取商品的一些基本信息,如名称、商店、价格、是否自营、图片路径等等。 准备 首先要确认自己本地已经安装好了 Selenium 包括 Chrome ,并

7.1.4 selenium 爬取京东商品信息实战_使用selenium chrome scrapy完成京东商品信息的爬取-爱代码爱编程

目录 1、实战内容 2、思路 3、分析 url 4、开始操作 1、得到 Cookies 2、访问页面,得到 response 3、解析页面 4、存入 MySQL 5、1-3步总代码 1、实战内容 爬取京东笔记本电脑商品的信息(如:价格、商品名、评论数量),存入 MySQL 中 2、思路 京东需要登录才能搜索进入,所以首先从

爬取数据存储到mysql_将爬虫数据保存到mysql中-爱代码爱编程

 连接到数据库pymysql.connect.cursor→创建表CREAT TABLE IF NOT EXISTS→获取网页内容requests.get→解析网页中的链接parsel.Selector.css('a::attr(href)').getall()→将找到的链接插入到数据库INSERT IGNORE INTO import requests