代码编织梦想

大三学过《数据科学编程Ⅱ》这门课,主要介绍了大数据分析的一些基本方法和流程,在这里总结一下。

一、机器学习任务分类

基于问题类型

  1. 分类问题: 逻辑回归、KNN、决策树、支持向量机、BP神经网络
  2. 回归问题: 线性回归、多项式回归、KNN、决策树、支持向量机、BP神经网络
  3. 聚类问题: k-means
  4. 关联学习(Association learning): 在实例发现某些固定模式和规律
  5. 降维问题: PCA主成分分析、相关系数法、决策树熵权法

基于解决策略

  1. 有监督学习(Supervised)
  2. 无监督学习(Unsupervised)
  3. 半监督学习(Semi-supervised): 将数据集部分标注,比如在识别问题中,对部分数据进行标注,可能会提高识别的准确率。
  4. 强化学习(Reinforcement)

二、数据预处理(Data Preprocessing)

特征工程在机器学习过程中占据重要地位,甚至比训练和调参更加重要,它决定了训练的整体效果。

1. 查看基本信息

  • data.info()可以查看特征类型、缺失值、数据量等情况。
  • data.describe()可以查看数值类型的均值、数据大致分布等情况。

2. 处理缺失值

  • drop相关的行/列
  • 用均值/众数/向前/向后等填充

3. 查看数据分布、诊断离群值

  • 使用直方图(hist)查看数据分布,删除分布极端的列
  • 使用箱线图查看离群值,删除或转换成合理最大值

4. 查看相关系数

  • 删除相关系数过高的列(目标列除外)

5. 处理不平衡数据集

  • 常用方法有:
    (1)采集更多数据,最后选取平衡数量的数据。
    (2)重采样,减少大类的数据,增加小类的数据(甚至可以重复取样)。
    (3)人为生成小类的数据。
    (4)细分类,将大类的数据再细分为几个小类,使每个类别数据平衡。

6. 归一化

  • Normalizing/Min-max scaling: 将数据归一至(0,1)之间。
  • Standardization scaling: 将数据归一至(-1,1)之间。

7. 独热编码转换(One-hot coding)

  • 经过多次尝试,我发现对于非数值类型的列,进行独热编码比直接map([1,2,3] --> ['a','b','c'])效果要好

8. 特征选择、降维

  • PCA主成分分析
  • 对目标列的相关系数排序
  • 决策树特征重要性提取(熵权法)
  • 利用聚类降维:将特征转换为每个点到每个类中心点的距离
  • 通过正则化增加 λ \lambda λ ,根据使正则化项趋于零的顺序,进行特征排序

9. 分割数据集

2. 数据训练与调参(Data Training)

  • 网格搜索
  • 交叉验证

3. 效果评价(Evaluation)

  1. 分类问题: 基于混淆矩阵(Confusion matrix)进行评价,主要指标有accuracy、、precision、recall、f1 score、ROC、AUC等

  2. 回归问题: MAE、MSE

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/jkjgj/article/details/128784241

数据采集-爱代码爱编程

    数据分析的前提就是数据的数量和质量。今天介绍几种数据源和数据的采集方式。     从数据采集角度,数据源分为开放数据源、爬虫抓取、日志采集、传感器,四类数据源。     开放数据源和爬虫听得比较多(主要是我听得比较多),所以简单说一下传感器和日志采集。传感器是基于特定的设备,将设备采集的信息进行收集。基本采集的是物理信息,如图像、视频或某物体的速度

java数据采集_基于Java的数据采集(终结篇)-爱代码爱编程

关于写过关于JAVA采集入库的三篇文章: 分别实现了 ①抓取页面信息并显示 ②简单采集入库存储 ③调用本地数据库查询 ④远程调用实现操作(未实现) 以上这些功能都是基于本地的,有时候我们需要远程去调用这类数据,这时我们就可以用JAVA提供的RMI机制实行远程调用访问。 什么是RMI? RMI 指的是远程方法调用 (Remote Meth

ni数据采集卡C语言API接口,NI数据采集卡-爱代码爱编程

NI采集卡,NI数据采集卡,NI PCI、PXI、USB数据采集卡 NI虚拟仪器技术在测控领域掀起了一场革命,同时也给传统的教学研究带来了巨大的变化。 一个基于计算机的自动化实验室大大提高了研究人员的工作效率并改进了学生的学习方式。 利用NI的虚拟仪器技术,以往复杂的数据采集工作变得异常简便,老师和同学都可以集中 时间和精力用于实验的执行、数据

用计算机进行实时自动采集,动态数据采集-爱代码爱编程

动态数据采集,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。动态数据采集一般要求结构在动作运行过程中采集数据,而采集点一般是静态测试数值较大的位置和比较关键的部位。通过高速计数器测量输入、输出数据,通过传感器测量输入、输出轴扭矩,并将所测数据信息上传给计算机。计算机根据上传数据计算出相应的传动比、系统效率、输入和输出功率等信息。动

计算机数据采集管理系统的结构和功能,计算机数据采集系统简介-爱代码爱编程

从广义上讲它应该称为计算机监视系统(MCS),习惯上称为数据采集系统(DAS)。 所谓计算机数据采集系统,是以计算机为核心对生产过程进行全工况开环监视的系统,是发 电机组起停、.正常运行和事故工况下的主要监视手段。采用计算机对机组的现场信号进行数 据采集,利用计算机强大的计算和逻辑分析能力实现对机组的监视、提示、记录等,可以为 运行操作提供指导,提高机

工业设备数据采集系统-采集精灵-爱代码爱编程

一、项目概述 MDC数据采集系统用于帮助企业通过全自动的软件采集方式,实时采集生产现场产量与品质数据,减少了大量的人工报表,做到无纸化生产,监控车间机床的利用率、空闲率、报警率、零件生产量等情况,并将采集到的数据生成相应的报告,公司领导层可以做出针对性的管理措施,最终帮助企业提高企业的生产效率。 通过系统采集到的数据可进行可视化详细设备状态分布图表,通过

数据采集简介_immommoi的博客-爱代码爱编程

(浅浅介绍一下数据采集的基础知识)(分享在东软教育线上学习的学习心得。)如有错误,欢迎各位技术大佬指正。         大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等等获取数据的过程。这些数据包括RFID数据(RFID:无线射频识别即射频识别技术(Radio Frequency Identification,R

工业数据采集平台-爱代码爱编程

工业数据采集平台 杭州乐芯科技有限公司 传统的DNC、MDC、SCADA只能满足部分设备数据采集,在工业互联网4.0时代,杭州乐芯开发新

【大数据采集技术与应用】【第一章】【大数据采集技术与应用概述】-爱代码爱编程

文章目录 1.1 大数据概述1.1.1 大数据时代1.1.2 大数据的概念1.1.3 大数据的特征1.1.4 大数据的应用1.1.5 大数据关键技术1.1.6 大数据处理流程 1.2 大数据采集技术概述1