代码编织梦想

整个处理步骤
一、Query预处理后,进行实体识别,根据权重信息计算得分,排序,重排,得到结果,
例如搜索词:,处理流程如下:zhongguanchun上个月天气情况
1.query预处理,修正文本内容,包含拼音转汉字,停用词同义词替换,转为正常文本,例如修正后的query:中关村上个月天气情况。
2.意图识别,目的是识别词条场景,提前定义好实体是中关村,属性值是天气,我们采用NER和规则匹配(字典树硬匹配)的等方式,并设置置信度筛选获取实体的场景类别。例如中关村(loc)上个月(time)天气,天气问答场景,0.9分
3.query二次解析,解析query中实体和筛选条件,根据query实体在对应场景中检索匹配实体结果并对齐实体中名称,同时处理筛选条件,采用Sentences-BERT语义相似度模型对齐属性名称,例如,获得结果1.地址:中关村,时间:2023年7月,类别:天气,2.地址:中关村路,时间:2023年7月,类别:天气,
4.排序,实体分值计算,筛选条件分值计算,根据得分排序,
5.重排,根据业务需求加权求和,重新排序,
6.使用置信度过滤后返回处理结果。
二、意图识别(分为NER实体识别归类)
1.NER实体识别,使用的是PaddleNLP UIE,算法介绍详见我另一篇文章。link
2.数据集构建,根据自己的数据集类型,穷举出用户的所有问法表达,构建数据集模板(非常重要),(1),制定问法类型,例如分类为单一维度查询和多维度组合查询。梳理自己的所有数据,单一维度数据分类列出,比如地区,人员,汽车等不同维度,再详细列举每个维度下一级分类属性有哪些,例如地区的包含具体省份。多维度组合查询,每个维度组合拼接问法,例如地区下面人员信息。(2),构建问法句式模板,根据问法表达进行组合,例如单一维度查询,{时间}{地区}{地区属性}的情况,{地区}{时间}{地区属性}的情况,多维度查询,{地区}{人员}{人员属性}{时间}的情况。(3)进一步拓展问法,继续穷尽出每个维度的表达,根据系统日志数据或者踩点数据模拟用户的各种问法,提高模型泛化能力,例如{地区简称}{人员简称}的情况。(4)根据定义好的模板,采样每个维度下的实体和属性生成训练数据,训练集保持每个样本采样均衡,保证模板丰富度,并需要维度下面的实体全部采样,系统采集用户真实语料需要人工标注。(5)构建人工测试数据,包含期望搜索结果,真实搜索结果,期望归类,真实归类,期望日期,真实日期。
3.模型训练,具体训练步骤详见我的另一篇文章,这里需要注意的是,第一次训练时候,先拿一小部分数据训练出结果,测试没问题后再上大规模语料,使用验证集测得F1得分为90%以上后上架测试环境,提供测试组人工测试。
4.测试,根据测试集找不同测试人员人工测试,准确率达到上线条件后即可上线。
三、属性对齐(属性值Sentences-BERT匹配识别)
1.目的:例如用户中关村上个月天色情况,天色需要对齐天气,这一步的操作需要一个语义相似度模型进行匹配。
2.模型介绍详见我另一篇文章link
3.数据集构建,类似FAQ的方式,通过构建子问题模板来映射到主问题上,可以利用chatgpt等工具构建属性的相似性问法,例如天气的问法可能是天色,下雨,晴天等,构建模板形式同NER一样。
4.模型训练,按照步骤训练模型,验证集达到90%以上上架测试环境
上架服务,人工测试符合条件后上生产环境。
未完待续。。。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dream_home8407/article/details/130903454

多模态对话语言模型-visualglm-6b-爱代码爱编程

多模态对话语言模型-VisualGLM-6B 一、简介 二、使用 模型推理

【数据结构与算法】- 周测三-爱代码爱编程

课程链接: 清华大学驭风计划 代码仓库:Victor94-king/MachineLearning: MachineLearning basic introduction (github.com) 驭风计划是由清华大

aigc持续火爆大模型争相推出,庞大市场造就算力供应模式演变-爱代码爱编程

本图由AI生成 文/王吉伟 近期的AIGC领域仍旧火爆异常。 但火的不只是AIGC应用,还有巨头之间的AI竞赛,以及接连不断上新的AI大模型(LLM,Large Language Model)。 面对ChatGPT带来的技术冲击,为了研发谷歌多模态AI模型及应对微软GPT-4版Security Copilot竞争,谷歌先是将谷歌

实在智能魅力抢眼!携超自动化解决方案和校企合作新范式点燃第七届世界智能大会-爱代码爱编程

为深入实施创新驱动发展战略,推动智能科技赋能经济社会发展,促进校企双方交换需求清单,全方位搭建校企握手通道,5月18日,由国家发展和改革委员会、科学技术部、国家广播电视总局、中国科学院等联合主办的第七届世界智能大会在国家会展中心(天津)开幕。实在智能作为国内AI准独角兽企业、RPA领域“先行者”,与全球 492家企业携一批世界最前沿技术和产品应邀参展,

5.28 深圳活动|jina ai 生态助力云原生场景下的 aigc 应用开发-爱代码爱编程

亚马逊云科技 Community Day 将于 5 月 28 日 在深圳南山区海德酒店 11 楼举办,Jina AI 软件工程师付杰将带来 《Jina AI 生态助力云原生场景下的 AIGC 应用开发》 的主题演讲。

「超强」chatgpt撰写的软件定制开发行业可行性报告分析-爱代码爱编程

I. 引言 - 报告目的和范围 本报告的目的是分析艾思软件公司在定制软件开发行业的可行性,并提供相关建议和指导。本报告主要分析定制软件开发行业的市场概况、市场规模和增长潜力、市场需求、供应情况以及市场财务可行性。本报告旨在为山东艾思软件科技有限公司在定制软件开发领域发展提供有益的参考资料,帮助公司了解该行业的市场情况和潜在机会,以及了解对手的竞争策略和

基于keras-yolo实现目标检测-爱代码爱编程

Keras-YOLO 3项目使用Python语言实现了YOLO v3网络模型,并且可以导入Darknet网络预先训练好的权重文件信息直接使用网络进行目标识别。 1. 下载Keras-YOLO 3项目 执行如下命令下载Keras-YOLO 3项目代码: git clone https://github.com/qqwweee/keras-yolo3

opencv 裁剪图片方法详解-爱代码爱编程

  OpenCV 是一个用于计算机视觉和机器学习的开源库。它包含了很多图像处理的功能,包括裁剪图片。在 Python 中,我们可以使用 OpenCV 的 `cv2` 模块来实现图片的裁剪。 以下是使用 OpenCV 裁剪图片的详细步骤: 1. 导入所需的库: ```python import cv2 ``` 2. 读取图片: ```python im

分享一个国内可用的免费chatgpt网站-爱代码爱编程

1、国内镜像ChatGPT工具入口 www.xduoyu.com 网址:ChatGPT国内在线网页版-永久免费使用!限制:暂无,目前是用多久都免费 2、Chat-AI 888.kzq02.cn 网址:Chat机器人 Gpt 国内入口-无限制-在线使用限制:有提问限制,新人注册使用是能提问10个问题左右 3、Chatgpt在线网页版-永久

为何ai无法完全理解人类情感?gpt-4能否理解人类的情绪?-爱代码爱编程

在科幻小说和电影里,我们经常看到超级AI人工智能机器人可以理解、感知甚至模拟人类的情感,但在现实世界中,我们距离这个目标还有一段相当长的距离,即使是强大的GPT-4甚至未来的GPT-5。过高夸大AI的体验和性能,往往并不利于

深度学习技巧应用16-利用python线程技术实现多图像生成项目-爱代码爱编程

大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用16-利用python线程技术实现多图像生成项目,这个项目主要是利用Python的线程技术实现多图像生成。利用AI绘画功能,实现多图像生成,将生成的图像保存到本地文件系统中。为了提高程序的效率,我们可以在每个图像生成的过程中开启多个线程,同时处理多个图像任务。我们可以创建一个线程池,每个线程从任务队列

matlab滑动窗口实现方法-爱代码爱编程

MATLAB中的滑动窗口是一种广泛应用于数字信号处理、图像处理、机器学习等领域的技术。通过滑动窗口技术,可以将数据分成多个连续、不重叠的子序列,便于进行数据处理、分析和建模。在本文中,将介绍MATLAB中如何实现滑动窗口,并

软件测试分类: 你需要知道的不同类型测试_测试除了黑盒测试还有什么-爱代码爱编程

文章目录 一. 按测试对象进行划分1. 界面测试2. 可靠性测试3. 容错性4. 文档测试5. 兼容性测试6. 易用性测试7. 安装卸载的测试8. 安全测试9. 性能测试10. 内存泄漏测试 二. 按是否

计算机视觉的应用5-爱代码爱编程

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用5-利用PCA降维方法实现简易人脸识别模型,本文将介绍如何使用主成分分析(PCA)实现简易的人脸识别模型。首先,我们将简要介绍PCA的原理及其在人脸识别中的应用。接着,我们将通过实例演示如何使用Python实现PCA降维,并给出完整的代码示例。 文章目录 一、引言二、PCA原理三、 PCA在人脸识

基于arima-爱代码爱编程

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭:行百里者,半于九十。 📋📋📋本文目录如下:🎁🎁🎁 目录 💥1 概述 1.1 ARIMA模型 1.2 LSTM神经网络 📚2 运行结果 ​ 🎉3 参考文

如何使用ai帮你制作ppt_webtab插件-爱代码爱编程

一:前言 ChatGPT:智能AI助你畅聊天地 在现代人日益忙碌的生活中,难免需要一些轻松愉快的聊天来放松身心。而现在,有了 ChatGPT,轻松愉快的聊天变得更加智能、有趣且不受时间、地点限制! 什么是 ChatGP