代码编织梦想

豆瓣电影分类排行榜 - 剧情片爬虫

Tips:

  • 爬取的页面:https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
  • 发起get请求,通过对返回的json数据进行解析,选择自己所需的数据保存即可
  • 而具体如何寻找构造请求的url以及相应参数,就不细讲了(写起来太麻烦了,大家读起来也累 doge)
import requests,json

class DouBan:
    
    def __init__(self):
        self.url = "https://movie.douban.com/j/chart/top_list?"
        self.ua = {"user-agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"}
        
    def get_info(self,param):
        resp = requests.get(url=self.url,
                     params = param,
                            headers=self.ua)
        info = resp.json()
        self.pares_infos(info)
        
	# 该函数是为了后期进行可视化,剔除了“剧情”类型,自己爬虫练习时可以不调用该函数	
    def list_to_str(self,ls):
        x = ""
        for i in ls:
            if i != "剧情": 
                x = x + i + " "
        return x.strip(" ")
    
    def pares_infos(self,infos):
        ls = [["电影名称","评分","评价总数","排名","类型","地区","上映日期(大陆)","豆瓣主页","ID"]]
        for i in infos:
            ls.append([i["title"],i["score"],str(i["vote_count"]),str(i["rank"]),self.list_to_str(i["types"]),i["regions"][0],i["release_date"],i["url"],i["id"]])
            # 将self.list_to_str(i["types"])更改为i["types"],即 不调用函数 list_to_str()
        self.write(ls)
        
    def write(self,ls):
        f = open("豆瓣数据.csv","w",encoding="utf-8-sig")
        for row in ls:
            f.write(",".join(row) + "\n")
        f.close()
        
    def main(self):
        limit = input("请输入爬取的数量:")
        param = {
            "type":"11",
            "interval_id": "100:90",
            "action":"",
            "start":"0",
            "limit":limit
        }
        self.get_info(param)

if __name__ == "__main__":
    spider = DouBan()
    spider.main()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_56741605/article/details/127974988

简单的scrapy爬虫:豆瓣剧情片排行榜_xiaofeng1qaz的博客-爱代码爱编程

目标:简单的scrapy练习,抓取豆瓣剧情片排行榜前20%并写入文件保存 网址: https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85%E7%89%87&type=11&interval_id=100:90&action= 网页说明:    1,网址中1

python爬虫 抓取豆瓣电影 电影分类排行榜的所有数据-爱代码爱编程

准备流程 确认网页是否为动态数据 右键查看网页源代码中搜你要的数据中的关键词,若搜不出来,就说明是动态数据只要是动态数据,直接去抓包 控制台Network ->xhr -> 点击左下角各个数据包 ->preview,找到你想要的数据所在的那些数据包后 -> Headers -> general ->request-UR

网络爬虫——豆瓣电影排行榜数据抓取(高级)-爱代码爱编程

网络爬虫——豆瓣电影排行榜数据抓取(高级) 目标网址: 豆瓣电影排行:https://movie.douban.com/top250?start= 目标数据描述:排名、电影名称、导演、主演、评价人数等信息,将尽可能多的数据抓取保存 任务明细: (1)使用requests库实现该网站网页源代码的获取; (2)使用BeautifulSoup对获取的源

关于Python3爬虫抓取豆瓣电影的案例-利用正则表达式-爱代码爱编程

最近在学习Python3爬虫,看了这本书《Python3网络爬虫开发实战》(并非打广告),看到了里面提到一个例子,爬取X眼电影的数据,今天试着自己实战一下。 主要是参考了以下资料: 1.书籍:《Python3网络爬虫开发实战》 2.博客:https://blog.csdn.net/skrskr66/article/details/85228193?u

python爬虫爬取豆瓣电影为啥内容有缺失-Python爬虫之抓取豆瓣影评数据-爱代码爱编程

----------写excel开始---------- ----------获取第1个影评开始----------标题: 《权力的游戏》S5E8:凛冬已至,凡人皆死 作者: 地瓜 影片: 权力的游戏 第五季 影评: 本篇多剧透、多推测、少评论 看过这一集的人,一定会被画风的急转直下惊得目瞪口呆。习惯了HBO《权力的游戏》节奏的观众都知道,这剧一般会在临近

爬虫第九式:豆瓣电影排行榜数据抓取-爱代码爱编程

温馨提示: 爬虫玩得好,监狱进得早。数据玩得溜,牢饭吃个够。 《刑法》第 285 条,非法获取计算机信息系统数据罪。        违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚

python爬虫豆瓣电影到csv_爬虫豆瓣电影存入csv文件-爱代码爱编程

需要用到的第三方库: requests(Python HTTP请求工具) lxml(解析网页结构工具) beautifulsoup4(网页文档解析工具) 先贴上代码 importrequestsfrom bs4 importBeautifulSoupimportcsv#1.新建一个csv的文件 to_be_show=open ('D:\\豆

python爬电影难不难_爬虫实战-手把手教你爬豆瓣电影-爱代码爱编程

点赞再看,养成好习惯 写在前面的话 目前为止,你应该已经了解爬虫的三个基本小节: 如果上面三小节还有问题,可以点回去再复习一下。作为基础内容并不是要求大家一定都掌握,特别是第三小节,网页解析用法特别多,一般人很难都记住。 我在写这篇的时候也会时不时的翻回去看一看之前的文章,可能有的方法并不是最简单的方法,但是只要达成目的就ok,这里你们自由发挥

【简单python爬虫】爬取豆瓣电影Top250的基本信息-爱代码爱编程

本文属于学习笔记,所以很多具体的知识点并没有记录,如有需要可以留言。 1.爬虫初始 1.1什么是爬虫? 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。 1.2爬虫可以做什么? 你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据都可以通过爬虫获取。 1.3爬虫的本质是什么? 模拟浏览器打开网页,获取网页中我们想要

Python爬取豆瓣各类电影排行榜-爱代码爱编程

文章目录 Python爬取豆瓣各类电影排行榜首先分析豆瓣网页url Python爬取豆瓣各类电影排行榜 爬虫就是模仿浏览器对网页信息进行收集,而过多的请求页面会造成网页服务气压力过大,所以网页也会执行一系列反爬机制,比如爬取时间间隔限制等,豆瓣相对来说没有国多的反爬机制,只要伪装好请求头,即可爬取信息。 本文将豆瓣排行榜中各种类型电影的排名情

Mongodb实战:豆瓣电影排行榜分析及结果展示设计-爱代码爱编程

课程大作业 一、研究背景 1 二、豆瓣电影功能设计 2 三、豆瓣电影功能实现 3 一、研究背景 1.1 背景 随着云计算和大数据时代的到来,每时每刻都会产生海量的数据,数据量成指数型增长,这些趋势使得科学技术发展日新月异。面对大量的数据,进行有效的整合分析,就可以提供有价值的数据分析。 Mongodb作为一个可扩展、开源、表结构自由、用C++语言编写且面

【爬虫】七夕快到了,想好和女朋友看什么片了吗?来一起用 Python 爬取豆瓣电影分类排行榜-爱代码爱编程

七夕快到了,和女朋友看什么片好呢? 噢忘了你还没有女朋友。要是缺女朋友,来看看我的这篇文章,做一个表白神器让你的七夕不孤单!《七夕都要到了,你还没有女朋友?教你用 Python 的 tkinter 做一个表白神器!为了幸福》 我先迫不及待地拿出我的Python。 需求分析 爬取豆瓣电影分类排行榜保存至本地准备工作 安装 requests 和 py

Python的request库爬取豆瓣电影排行-爱代码爱编程

用python爬取豆瓣电影排行,并将电影的相关信息存储到csv文件中 目录 案例1:直接解析 案例2:正则表达式 案例1:直接解析         爬取豆瓣电影分类排行榜信息,我们发现网页源代码并不包含排行的电影信息,使用抓包工具获得url等相关信息,并编写代码         编写代码如下,没有用到解析源码的过程: # codi

python爬虫实例-运用requests抓取豆瓣电影TOP250(详解)-爱代码爱编程

目录 开发工具目标网页分析正则匹配分析代码实例总结 开发工具 python版本: python-3.8.1-amd64python开发工具: JetBrains PyCharm 2018.3.6 x64安装requests库(指定阿里镜像安装会很快) pip install requests -i http://mirrors.aliyun.

【Python】Python爬虫豆瓣电影数据并进行数据分析-爱代码爱编程

目录 前言一、准备工作1.观察榜单网页结构2.观察电影网页3.IP代理二、开始爬取1.引入库2.获取榜单电影url3.电影信息三、可视化1.热力图2.柱状图3.饼图4.折线图5.漏斗图 前言 python爬虫爬取豆瓣电影基本上是爬虫入门必做的一个爬虫了,网上也有很多很好的教程,这篇文章写的就很没有必要,那为什么我还是要写呢,有一个很朴实的原因

使用 python 脚本爬取豆瓣电影排行榜-爱代码爱编程

文章目录 1. 脚本内容2. 获取的内容 1. 脚本内容 # -*- codeing = utf-8 -*- from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进行文字匹配` import urllib.request, urllib.error # 制定URL,获取

爬虫项目之豆瓣电影排行榜前10页-爱代码爱编程

目录 一、学习资源: 二、知识点介绍 1、urlib库的基本使用 ​ 2、使用实例         ①获取网页源码          ②从服务器下载网页、图片、视频 3、UA介绍         ①简介         ②实例  三、项目详细讲解   1、分析  2、步骤         (1)请求对象定制         (2

【毕业设计】大数据电影数据分析可视化系统 - python 爬虫_caxiou的博客-爱代码爱编程

文章目录 0 前言1 课题背景2 项目效果展示2.1 主界面展示2.2电影数据查询2.3可视化展示 3 数据爬取3.1 Requests3.2 bs43.3 MySQL数据库 4 可视化技术4.1 Flask