代码编织梦想

今天学习的是数据准备的流程。

我们已经知道,数据准备占了AI项目超过一半甚至79%的时间。

那么数据准备,都做些什么,有哪些流程。

1.数据采集

  • 观测数据
  • 人工收集
  • 调查问卷
  • 线上数据库

2.数据清洗

  • 有缺失的数据
  • 有重复的数据
  • 有内容错误的数据,例如逻辑错误、格式错误
  • 有不需要的数据

3.数据标注

数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记

对象的特征,以作为机器学习标签的过程。

 4.数据划分

  • 训练集
  • 测试集
  • 一般8:2或者7:3,训练集的数据较大

5.数据验收

  • 合法性
  • 准确性
  • 完整性
  • 一致性

延伸学习:

1. 数据采集

  • 确定数据源:根据业务需求,确定需要采集数据的来源,如数据库、API、日志文件、传感器等。
  • 设计采集策略:制定数据采集的频率、方式(如实时采集、批量采集)以及数据存储格式。
  • 实施采集:编写或使用现成的工具来从数据源中抓取数据。

示例

  • 电商网站通过日志系统收集用户的浏览和购买记录,为推荐系统提供数据。
  • 智能家居设备通过传感器实时采集温度、湿度等数据,用于智能控制。

2. 数据清洗

  • 去除重复数据:识别并删除重复的记录。
  • 处理缺失值:使用均值、中位数、众数等统计方法填充缺失值,或根据算法预测缺失值。
  • 纠正错误值:通过数据验证和逻辑规则识别并更正错误的数据。
  • 格式化数据:将数据转换为统一的格式,如日期、时间戳等。

示例

  • 在医疗数据分析中,清洗掉由于设备故障产生的异常血压读数。
  • 在金融领域,处理由于系统故障导致的交易数据中的缺失值。

3. 数据标注

  • 定义标注规则:根据业务需求,制定数据标注的标准和规则。
  • 实施标注:人工或使用自动化工具对数据进行标注。
  • 标注质量检查:验证标注的准确性,确保数据质量。

示例

  • 在图像识别项目中,人工标注图片中的物体类别(如猫、狗、汽车等)。
  • 在语音识别中,对音频数据进行文本标注,用于训练语音转文字模型。

4. 数据划分

  • 随机划分:将数据随机划分为训练集、验证集和测试集。
  • 分层抽样:确保每个子集中的数据分布与整体数据分布一致。
  • 时间序列划分:对于时间序列数据,按照时间顺序进行划分。

示例

  • 在股票价格预测项目中,按照时间序列划分训练集和测试集,确保模型能够学习到时间序列中的模式。
  • 在图像分类任务中,随机划分图像数据,但确保每个类别在训练集和测试集中都有代表。

5. 数据验收

  • 数据质量检查:验证数据的完整性、准确性和一致性。
  • 业务需求符合性检查:确保数据满足业务需求和项目目标。
  • 数据安全性检查:确保数据在处理、存储和传输过程中符合安全标准。

示例

  • 在智能客服项目中,验收阶段发现部分用户对话数据存在隐私泄露风险,于是进行数据脱敏处理。
  • 在推荐系统项目中,验收阶段发现数据集中缺少关键的用户行为数据,于是重新采集这部分数据。

6. 数据交付

  • 数据打包:将数据整理成适当的格式和文件结构,便于模型训练和部署。
  • 数据传输:安全地将数据传输给模型训练团队或存储到指定位置。
  • 数据文档编写:提供数据字典、数据说明文档等,帮助使用者理解数据。

示例

  • 在自然语言处理项目中,将清洗和标注后的文本数据打包成CSV格式,并附带数据字典说明每个字段的含义,然后交付给模型训练团队。
  • 在图像识别项目中,将图像数据和对应的标注文件整理成特定的文件夹结构,并通过加密方式传输给远程服务器上的模型训练环境。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/giszz/article/details/136140253

【mysql】数据库架构学习合集-爱代码爱编程

目录 1. Mysql整体架构1-1. 连接层1-2. 服务层1-3. 存储引擎层1-4. 文件系统层 2. 一条sql语句的执行过程2-1. 数据库连接池的作用2-2. 查询sql的执行过程2-1. 写

2.9日学习打卡-爱代码爱编程

2.9日学习打卡 一.RabbitMQ 死信队列 在MQ中,当消息成为死信(Dead message)后,消息中间件可以将其从当前队列发送到另一个队列中,这个队列就是死信队列。而在RabbitMQ中,由于有交换机的概念

【书生·浦语大模型实战营】学习笔记1-爱代码爱编程

大模型成为发展通用人工智能的重要途经 专用模型:针对特定任务,一个模型解决一个问题 通用大模型:一个模型应对多种任务、多种模态 书生·浦语大模型系列 上海人工智能实验室 轻量级、中量级、重量级 7B 和 123B的轻量级和中

【chrono engine学习总结】4-爱代码爱编程

由于Chrono的官方教程在一些细节方面解释的并不清楚,自己做了一些尝试,做学习总结。 1、基本介绍 Vehicle Overview Vehicle Mannel Vehicle的官方demo 1.1 Vehicle

接口测试基础和原理-爱代码爱编程

什么是接口? 接口可以理解为一个连接前端和后端的“桥梁”,接口就是前端访问 后端逻辑的一个访问路径。后端会将数据处理结果,通过接口反馈给 前端。简言之,前端和后端需要通过接口进行交互。前端需要通过接 口向后端拿数据,

c++的进阶泛型编程学习(1):函数模板的基本概念和机制-爱代码爱编程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、模板1.1 模板的概念1.1.1 形象的解释:模板就是通用的模具,目的是提高通用性1.1.1 模板的特点:1.1.

学习总结16-爱代码爱编程

# 【模板】最小生成树 ## 题目描述 如题,给出一个无向图,求出最小生成树,如果该图不连通,则输出 `orz`。 ## 输入格式 第一行包含两个整数 N,M,表示该图共有 N 个结点和 M 条无向边。 接下来 M 行每行包含三个整数 Xi,Yi,Zi,表示有一条长度为 Zi 的无向边连接结点 Xi,Yi。 ## 输出格式 如果该图连通,则输

rust 语言学习杂谈 (end) (各种工作中遇到的疑难杂症)-爱代码爱编程

1.在运行 “cargo build --release” 的时候,到底发生了什么? 源 (GPT4.0) : 当我们运行 cargo build --release 命令时,实际上在进行一系列复杂的步骤来编译和构建

opengl学习——11.材质_opengl材质-爱代码爱编程

前情提要:本文代码源自Github上的学习文档“LearnOpenGL”,我仅在源码的基础上加上中文注释。本文章不以该学习文档做任何商业盈利活动,一切著作权归原作者所有,本文仅供学习交流,如有侵权,请联系我删除。LearnOpenGL原网址:https://learnopengl.com/ 请大家多多支持原作者! 欢迎来到本篇博客,今天我们将探索Op

ssm框架,spring-爱代码爱编程

代理模式 二十三种设计模式中的一种,属于结构型模式。它的作用就是通过提供一个代理类,让我们在调用目标方法的时候,不再是直接对目标方法进行调用,而是通过代理类间接调用。让不属于目标方法核心逻辑的代码从目标方法中剥离出来——解耦。调用目标方法时先调用代理对象的方法,减少对目标方法的调用和打扰,同时让附加功能能够集中在一起也有利于统一维护。 可以将重复的非核

学习记录691@spring面试之bean的作用域-爱代码爱编程

Spring为Bean定义了5种作用域,分别为Singleton(单例)、Prototype(原型)、Request(请求级别)、Session(会话级别)和Global Session(全局会话)。 Singleton

stable diffusion webui学习总结(1):准备工作-爱代码爱编程

1、下载启动器: B站搜索绘世启动器(感谢赛博菩萨秋叶大佬) 【AI绘画】SD-WebUI 整合包 / 绘世启动器 / 训练器下载导航 (长期有效) - 哔哩哔哩 (bilibili.com) 2、下载模型(checkpoint): 模型影响画风,如写实、卡通、3D等 国内:LiblibAI·哩布哩布AI - 中国领先的AI创作平台 国外:Ci

单片机学习笔记-爱代码爱编程

目录 AT24C02数据存储 准备工作 代码讲解 I2C.c 模拟起始位置的时序 模拟发送一个字节的时序 模拟接收应答的时序 模拟接收一个字节的时序 模拟发送应答的时序 模拟结束位置的时序 I2C.h  AT24C02.c 字节写:在WORD ADDRESS(字地址)处写入数据DATA 随机读:读出在WORD ADDRESS处的

中科大计网学习记录笔记(八):ftp | email-爱代码爱编程

前言: 学习视频:中科大郑烇、杨坚全套《计算机网络(自顶向下方法 第7版,James F.Kurose,Keith W.Ross)》课程 该视频是B站非常著名的计网学习视频,但相信很多朋友和我一样在听完前面