156个python网络爬虫资源,妈妈再也不用担心你找不到资源!_爬虫 csdn资源-爱代码爱编程
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Office
- python-docx - 阅读,查询和修改Microsoft Word 2007/2008 docx文件
- xlwt / xlrd - 从Excel读取及写入数据和格式化信息
- XlsxWriter - 用于穿件Excel .xlsx文件的Python模块
- xlwings - 一个BSD许可的库,是Excel与Python互相调用更加简单
- openpyxl - 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库
- Marmir - 提取Python数据结构并将其转化为表格的库
- PDFMiner- 从PDF文档中提取信息的工具
- PyPDF2 - 一个分割、合并、转换PDF文件的库
- ReportLab - 可以快速创建大量PDF文档
- pdftables - 从PDF文件中精准提取表格
Markdown
- Python-Markdown - 一个用Python实现的John Gruber的Markdown
- Mistune - 速度最快,功能全面的Markdown纯Python解析器
- markdown2 - 一个完全用Python实现的快速的Markdown
YAML
- PyYAML - 一个Python的YAML解析器
CSS
-
- cssutils- 一个Python的CSS库
ATOM/RSS
- feedparser - 通用的feed解析器
SQL
- sqlparse - 一个无验证的SQL语句分析器
HTTP
- http-parser - C语言实现的HTTP请求/响应消息解析器
Microformats
- opengraph - 一个用来解析Open Graph协议标签的Python模块
可移植的执行体
- pefile - 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块
PSD
- psd-tools - 将Adobe Photoshop PSD(即PE)文件读取到Python数据结构
自然语言处理
自然语言处理库
- NLTK - Python自然语言处理领先者
- Pattern- Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它
- TextBlob - 为深入处理自然语言的项目提供API,参考了NLTK及其他
- jieba - 中文分词
- SnowNLP - 汉字文本处理库
- loso - 中文分词库
- genius -基于条件随机域的中文分词
- langid.py - 独立的语言识别系统
- Korean - 韩文形态库
- pymorphy2 - 俄语形态分析器(词性标注+词形变化引擎)
- PyPLN - 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库
- langdetect - Python的谷歌语言检测库端口
浏览器自动化与仿真
浏览器
- selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)
- Ghost.py - QtWebKit封装(需求PyQT)
- Spynner - 具备AJAX支持的程序化网页浏览模块
- Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)
Headless工具
- xvfbwrapper - 用于在X虚拟帧缓冲区(Xvfb)中运行显示的Python包装器
多进程并发
- threading - Python标准库的多线程运行。因为python GIL限制,对于I/O密集型任务很有效,对于CPU绑定的任务没用
- multiprocessing - 多进程标准库
- celery - 基于分布式消息传递的异步任务队列/作业队列
- concurrent-futures - concurrent.futures模块提供用于异步执行callable的高级接口
异步
异步网络编程库
- asyncio - 异步I/O,时间循环,协同程序和任务(Python 3.4以上版本的Python标准库)
- Twisted - 基于事件驱动的网络引擎框架
- Tornado - 一个Web框架及异步网络库
- pulsar - Python事件驱动的并发框架
- diesel - Python的基于Greenlet的I/O框架
- gevent - 一个基于协同程序的Python网络库,使用greenlet
- eventlet - 有WSGI支持的异步框架
- Tomorrow - 异步代码的魔法
队列
- celery - 基于分布式消息传递的异步任务队列/作业队列
- huey - 小型多线程任务队列
- mrq - Mr. Queue - 使用redis & Gevent 的Python分布式工作任务队列
- RQ - 基于Redis的轻量级任务队列管理器
- simpleq - 一个简单的,可无限扩展,基于Amazon SQS的队列
- python-gearman - Gearman的Python API
云计算
- picloud - 在云端执行Python
- dominoup.com - 在云端执行R, Python及matlab代码
电子邮件
电子邮件处理库
- flanker - 电子邮件及MIME处理库
- Talon - Mailgun库用于提取消息的报价和签名
URL和网络地址操作
URL和网络地址操作库
URL
- furl - 一个小的Python库,使得操纵URL简单化
- purl - 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
- urllib.parse - 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)
- tldextract - 使用公共后缀列表从URL的注册域和子域中准确分离TLD
网络地址
- netaddr - 用于显示和操纵网络地址的Python库
网页内容提取
网页内容提取库
HTML页面的文本和元数据
- newspaper - 用Python进行新闻提取、文章提取和内容策展
- html2text - 将HTML转为Markdown格式文本
- python-goose - HTML内容/文章提取器
- lassie - 人性化的网页内容检索工具
- micawber - 一个从网址中提取丰富内容的小型库
- sumy -一个自动汇总文本文件和HTML网页的模块
- Haul - 一个可扩展的图像爬虫
- python-readability - arc90 readability工具的快速Python接口
- scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器
- libextract - 从网站提取数据
视频
- youtube-dl - 一个从YouTube下载视频的小型命令行工具
- you-get - Python3写成的YouTube/Youku/Niconico视频下载工具
Wiki
- WikiTeam - 下载并保存wkiks的工具
WebSocket
用于WebSocket的库
- Crossbar - 开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)
- AutobahnPython - 提供了WebSocket协议和WAMP协议的Python实现并且开源
- WebSocket-for-Python - Python 2和3以及PyPy的WebSocket客户端和服务器库
DNS解析
- dnsyo - 在全球超过1500个的DNS服务器上检查你的DNS
- pycares - ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库
计算机视觉
- OpenCV) - 开源计算机视觉库
- SimpleCV - 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)
- mahotas - 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型
代理服务器
- shadowsocks - 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)
- tproxy - tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置
杂项
- user_agent - 此模块用于生成随机,有效的Web导航器的配置和用户代理HTTP header
其他
- awesome-python
- pycrumbs
- python-github-projects
- python_reference
- pythonidae
【最新Python全套从入门到精通学习资源,文末免费领取!】
Python技术资源分享
如果你对Python感兴趣,学好 Python 不论是就业、副业赚钱、还是提升学习、工作效率,都是非常不错的选择,但要有一个系统的学习规划。
小编是一名Python开发工程师,自己整理了一套 【最新的Python系统学习教程】,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。
如果你是准备学习Python或者正在学习,下面这些你应该能用得上:
1、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
2、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
3、精品书籍
做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。
别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。
我先来介绍一下这些东西怎么用,文末抱走。
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
(4)200多本电子书
这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。
基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。
(5)Python知识点汇总
知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。
(6)其他资料
还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。
这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!