机器学习-数据科学库 01 数据分析介绍和环境安装_eddiechen10081的博客-爱代码爱编程
为什么学习数据分析
- 通过数据分析、机器学习等,找到感兴趣的规律和经验
- 机器学习、python 数据科学的基础,相对 vanilla 方式更便捷和规范
- 岗位需求,如大盘看板、产品改进等
什么是数据分析
用适当方法对大量数据进行分析,帮助人们做出判断,以便采取行动。
数据分析流程
上述流程图可以用做代码框架
- 提出问题:问题可能不是很清楚需要尽早明确
- 准备数据:数据清洗,比如理解某些字段、需要过滤某些字段、按某些格式
- 数据分析:按照要求进行处理,可以借助诸如 numpy、pandas 等
- 获得结论:结论可能比较简单
- 成果可视化:通过图表形式更容易理解,可以借助如 matplotlib 等
开发环境介绍
conda & anaconda
Package, dependency and environment management for any languag
Anaconda offers the easiest way to perform Python/R data science and machine learning on a single machine
https://docs.conda.io/en/latest/
Package, dependency and environment management for any language
The conda package and environment manager is included in all versions of Anaconda®, Miniconda, and Anaconda Repository.
Anaconda 是一套集成环境,包括了科学计算包和 python,如果不想自己手工维护可以一站式安装;如果希望自己做手工包管理则可选
homebrew
brew install --cask anaconda
jupyter
interactive computing across all programming languages
docs
https://docs.jupyter.org/en/latest/running.html
homebrew
brew install jupyterlab