豆瓣电影分类排行榜-剧情片-爬虫_小吴不吃香菜的博客-爱代码爱编程

2022-11-22 分类: python 爬虫开发语言豆瓣爬虫python

豆瓣电影分类排行榜 - 剧情片爬虫

Tips：

爬取的页面：https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
发起get请求，通过对返回的json数据进行解析，选择自己所需的数据保存即可
而具体如何寻找构造请求的url以及相应参数，就不细讲了（写起来太麻烦了，大家读起来也累 doge)

import requests,json

class DouBan:
    
    def __init__(self):
        self.url = "https://movie.douban.com/j/chart/top_list?"
        self.ua = {"user-agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"}
        
    def get_info(self,param):
        resp = requests.get(url=self.url,
                     params = param,
                            headers=self.ua)
        info = resp.json()
        self.pares_infos(info)
        
	# 该函数是为了后期进行可视化，剔除了“剧情”类型，自己爬虫练习时可以不调用该函数	
    def list_to_str(self,ls):
        x = ""
        for i in ls:
            if i != "剧情": 
                x = x + i + " "
        return x.strip(" ")
    
    def pares_infos(self,infos):
        ls = [["电影名称","评分","评价总数","排名","类型","地区","上映日期(大陆)","豆瓣主页","ID"]]
        for i in infos:
            ls.append([i["title"],i["score"],str(i["vote_count"]),str(i["rank"]),self.list_to_str(i["types"]),i["regions"][0],i["release_date"],i["url"],i["id"]])
            # 将self.list_to_str(i["types"])更改为i["types"],即 不调用函数 list_to_str()
        self.write(ls)
        
    def write(self,ls):
        f = open("豆瓣数据.csv","w",encoding="utf-8-sig")
        for row in ls:
            f.write(",".join(row) + "\n")
        f.close()
        
    def main(self):
        limit = input("请输入爬取的数量：")
        param = {
            "type":"11",
            "interval_id": "100:90",
            "action":"",
            "start":"0",
            "limit":limit
        }
        self.get_info(param)

if __name__ == "__main__":
    spider = DouBan()
    spider.main()

本文链接：https://blog.csdn.net/weixin_56741605/article/details/127974988

简单的scrapy爬虫：豆瓣剧情片排行榜_xiaofeng1qaz的博客-爱代码爱编程

2018-08-17 分类: scrapy 爬虫学习者

目标：简单的scrapy练习，抓取豆瓣剧情片排行榜前20%并写入文件保存网址： https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85%E7%89%87&type=11&interval_id=100:90&action= 网页说明： 1，网址中1

python爬虫抓取豆瓣电影电影分类排行榜的所有数据-爱代码爱编程

2019-11-19 标签: python分类: spider #python

准备流程确认网页是否为动态数据右键查看网页源代码中搜你要的数据中的关键词，若搜不出来，就说明是动态数据只要是动态数据，直接去抓包控制台Network ->xhr -> 点击左下角各个数据包 ->preview，找到你想要的数据所在的那些数据包后 -> Headers -> general ->request-UR

网络爬虫——豆瓣电影排行榜数据抓取（高级）-爱代码爱编程

2020-04-13 分类: 网络爬虫

网络爬虫——豆瓣电影排行榜数据抓取（高级）目标网址：豆瓣电影排行：https://movie.douban.com/top250?start= 目标数据描述：排名、电影名称、导演、主演、评价人数等信息，将尽可能多的数据抓取保存任务明细：（1）使用requests库实现该网站网页源代码的获取；（2）使用BeautifulSoup对获取的源

关于Python3爬虫抓取豆瓣电影的案例-利用正则表达式-爱代码爱编程

2020-05-28 标签: python 爬虫大数据 Python3分类: python

最近在学习Python3爬虫，看了这本书《Python3网络爬虫开发实战》(并非打广告)，看到了里面提到一个例子，爬取X眼电影的数据，今天试着自己实战一下。主要是参考了以下资料： 1.书籍:《Python3网络爬虫开发实战》 2.博客:https://blog.csdn.net/skrskr66/article/details/85228193?u

python爬虫爬取豆瓣电影为啥内容有缺失-Python爬虫之抓取豆瓣影评数据-爱代码爱编程

2020-11-11 分类: uncategorized

----------写excel开始---------- ----------获取第1个影评开始----------标题：《权力的游戏》S5E8：凛冬已至，凡人皆死作者：地瓜影片：权力的游戏第五季影评：本篇多剧透、多推测、少评论看过这一集的人，一定会被画风的急转直下惊得目瞪口呆。习惯了HBO《权力的游戏》节奏的观众都知道，这剧一般会在临近

爬虫第九式：豆瓣电影排行榜数据抓取-爱代码爱编程

2020-12-28 分类: python 爬虫

温馨提示：爬虫玩得好，监狱进得早。数据玩得溜，牢饭吃个够。《刑法》第 285 条，非法获取计算机信息系统数据罪。违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚

python爬虫豆瓣电影到csv_爬虫豆瓣电影存入csv文件-爱代码爱编程

2021-01-13 分类: python爬虫豆瓣电影

需要用到的第三方库： requests(Python HTTP请求工具) lxml(解析网页结构工具) beautifulsoup4(网页文档解析工具) 先贴上代码 importrequestsfrom bs4 importBeautifulSoupimportcsv#1.新建一个csv的文件 to_be_show=open ('D:\\豆

python爬电影难不难_爬虫实战-手把手教你爬豆瓣电影-爱代码爱编程

2021-02-04 分类: python爬电影难不难

点赞再看，养成好习惯写在前面的话目前为止，你应该已经了解爬虫的三个基本小节：如果上面三小节还有问题，可以点回去再复习一下。作为基础内容并不是要求大家一定都掌握，特别是第三小节，网页解析用法特别多，一般人很难都记住。我在写这篇的时候也会时不时的翻回去看一看之前的文章，可能有的方法并不是最简单的方法，但是只要达成目的就ok，这里你们自由发挥

【简单python爬虫】爬取豆瓣电影Top250的基本信息-爱代码爱编程

2021-03-16 分类: python 爬虫正则表达式

本文属于学习笔记，所以很多具体的知识点并没有记录，如有需要可以留言。 1.爬虫初始 1.1什么是爬虫？网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。 1.2爬虫可以做什么？你可以爬取妹子的图片，爬取自己想看的视频等等，只要你能通过浏览器访问的数据都可以通过爬虫获取。 1.3爬虫的本质是什么？模拟浏览器打开网页，获取网页中我们想要

Python爬取豆瓣各类电影排行榜-爱代码爱编程

2021-04-16 分类: python 爬虫 exec

文章目录 Python爬取豆瓣各类电影排行榜首先分析豆瓣网页url Python爬取豆瓣各类电影排行榜爬虫就是模仿浏览器对网页信息进行收集，而过多的请求页面会造成网页服务气压力过大，所以网页也会执行一系列反爬机制，比如爬取时间间隔限制等，豆瓣相对来说没有国多的反爬机制，只要伪装好请求头，即可爬取信息。本文将豆瓣排行榜中各种类型电影的排名情

Mongodb实战：豆瓣电影排行榜分析及结果展示设计-爱代码爱编程

2021-05-26 分类: 笔记 python mongodb

课程大作业一、研究背景 1 二、豆瓣电影功能设计 2 三、豆瓣电影功能实现 3 一、研究背景 1.1 背景随着云计算和大数据时代的到来，每时每刻都会产生海量的数据，数据量成指数型增长，这些趋势使得科学技术发展日新月异。面对大量的数据，进行有效的整合分析，就可以提供有价值的数据分析。 Mongodb作为一个可扩展、开源、表结构自由、用C++语言编写且面

【爬虫】七夕快到了，想好和女朋友看什么片了吗？来一起用 Python 爬取豆瓣电影分类排行榜-爱代码爱编程

2021-08-09 分类: xlwt # python爬虫 python 爬虫 requests PyQuery

七夕快到了，和女朋友看什么片好呢？噢忘了你还没有女朋友。要是缺女朋友，来看看我的这篇文章，做一个表白神器让你的七夕不孤单！《七夕都要到了，你还没有女朋友？教你用 Python 的 tkinter 做一个表白神器！为了幸福》我先迫不及待地拿出我的Python。需求分析爬取豆瓣电影分类排行榜保存至本地准备工作安装 requests 和 py

Python的request库爬取豆瓣电影排行-爱代码爱编程

2021-11-07 分类: python 爬虫数据挖掘

用python爬取豆瓣电影排行，并将电影的相关信息存储到csv文件中目录案例1：直接解析案例2：正则表达式案例1：直接解析爬取豆瓣电影分类排行榜信息，我们发现网页源代码并不包含排行的电影信息，使用抓包工具获得url等相关信息，并编写代码编写代码如下，没有用到解析源码的过程： # codi

python爬虫实例-运用requests抓取豆瓣电影TOP250（详解）-爱代码爱编程

2021-12-07 分类: python爬虫数据分析 python 爬虫后端开发语言

目录开发工具目标网页分析正则匹配分析代码实例总结开发工具 python版本: python-3.8.1-amd64python开发工具: JetBrains PyCharm 2018.3.6 x64安装requests库(指定阿里镜像安装会很快) pip install requests -i http://mirrors.aliyun.

【Python】Python爬虫豆瓣电影数据并进行数据分析-爱代码爱编程

2021-12-15 分类: 数据分析 python 爬虫

目录前言一、准备工作1.观察榜单网页结构2.观察电影网页3.IP代理二、开始爬取1.引入库2.获取榜单电影url3.电影信息三、可视化1.热力图2.柱状图3.饼图4.折线图5.漏斗图前言 python爬虫爬取豆瓣电影基本上是爬虫入门必做的一个爬虫了，网上也有很多很好的教程，这篇文章写的就很没有必要，那为什么我还是要写呢，有一个很朴实的原因

使用 python 脚本爬取豆瓣电影排行榜-爱代码爱编程

2022-01-17 分类: 云计算 python 爬虫开发语言语法

文章目录 1. 脚本内容2. 获取的内容 1. 脚本内容 # -*- codeing = utf-8 -*- from bs4 import BeautifulSoup # 网页解析，获取数据 import re # 正则表达式，进行文字匹配` import urllib.request, urllib.error # 制定URL，获取

爬虫项目之豆瓣电影排行榜前10页-爱代码爱编程

2022-01-20 分类: 分享 python 爬虫数据挖掘

目录一、学习资源：二、知识点介绍 1、urlib库的基本使用 2、使用实例 ①获取网页源码 ②从服务器下载网页、图片、视频 3、UA介绍 ①简介 ②实例三、项目详细讲解 1、分析 2、步骤（1）请求对象定制（2

【毕业设计】大数据电影数据分析可视化系统 - python 爬虫_caxiou的博客-爱代码爱编程

2022-11-04 分类: 毕业设计数据分析 python 大数据爬虫

文章目录 0 前言1 课题背景2 项目效果展示2.1 主界面展示2.2电影数据查询2.3可视化展示 3 数据爬取3.1 Requests3.2 bs43.3 MySQL数据库 4 可视化技术4.1 Flask