代码编织梦想

axolotl:一款极简的大模型微调(finetune)开源框架_大模型精调框架 开源-爱代码爱编程

今天给大家分享一款工具,Axolotl[1] 是一个旨在简化各种AI模型的微调过程的工具,支持多种配置和架构。 特点: 可训练各种 Huggingface 模型,如 llama、pythia、falcon、mpt支持 f

大模型增量学习 (1)_moe增量学习-爱代码爱编程

动机 1.知识继承 尽管在探索各种预训练技术和模型架构方面做出了巨大的努力,研究人员发现,简单地扩大模型容量、数据大小和训练时间可以显著提升模型性能,然而更多的模型参数也意味着更昂贵的计算资源、训练成本。现有的 PLM 通

【学习记录】大模型微调方法_为什么大模型微调后回答有一些没用的字符-爱代码爱编程

目录 写在前面一、为什么需要大模型微调二、大模型微调方法1. FFT(Full Fine Tuning)2. PEFT(Parameter-Efficient Fine Tuning)2.1 LoRA2.2 Q

从大模型中蒸馏脚本知识用于约束语言规划-爱代码爱编程

来自:知识工场 进NLP群—>加入NLP交流群 为了实现日常目标,人们通常会根据逐步指令来计划自己的行动。这些指令被发现是目标导向的脚本,包括一组达成目标的原型事件序列。为了实现目标(例如制作蛋糕),通常需要按照某些指令步骤进行,例如收集材料,预热烤箱等。这种逐步脚本的规划会朝着复杂目标的推理链条进行。因此,规划自动化意味着在各个

cxl 来了!重磅解读asplos’23 杰出论文 pond内存池系统_asplos 2024最佳论文-爱代码爱编程

Pond: CXL-Based Memory Pooling Systems for Cloud Platforms Huaicheng Li, Daniel S. Berger, Lisa Hsu, Daniel Ernst, Pantea Zardoshti, Stanko Novakovic, Monish Shah, Samir Rajadny

【模型解析和使用教程】2023新论文:ram++多模态图片识别,recognize anything model plus 模型解析和使用_recognize anything model讲解-爱代码爱编程

-------------------------------------------------不可转载----------------------------------------- Citation: 图片均来源于

vlm:meta ai & cmu提出任务无关视频语言模型视频理解预训练vlm,代码已开源!(acl 2021)...-爱代码爱编程

关注公众号,发现CV技术之美 本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』,由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM,代码已开源! 详细信

llava-爱代码爱编程

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【大模型】交流群 扫描下方二维码,加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐! 美团提出了LLaVA-MoLE,一种稀疏混合LoRA专家的

pytorch技术和深度学习——二、pytorch基础编程_pytorch 编程规范-爱代码爱编程

文章目录 1.张量数据操作和数据类型1)创建张量2)数据类型3)综合实现 2.张量索引、切片、拼接及形状变换1)索引2)切片3)拼接4)形状变换5)综合实现 3.张量存储1)使用索引访问张量

深度学习-爱代码爱编程

概要   当今社会发展迅速,网络邮件也愈加普及。但是随之产生的垃圾邮件问题,也是的我们的邮件用户不堪其扰。对企业的工作以及个人用户的生活也造成了很大的影响。针对一些由于垃圾邮件导致的网络吞吐量异常和邮件系统无法正常使用的情

【llm推理】lookahead:一种无损推理加速机制_lookahead inference-爱代码爱编程

引言 现有LLMs的实际应用面临着推理速度慢的问题,现有优化推理方法如:量化(int8、GPTQ、KV Cache INT8等)、稀疏化、剪枝、知识蒸馏和张量分解等操作来减少LLMs的大小和降低推理速度。但这些技术往往会牺

狙击chatgpt,马斯克的grok来了-爱代码爱编程

近日,埃隆马斯克 (Elon Musk) 宣布,他的人工智能初创公司xAI将推出首款AI大模型Grok,狙击如火如荼的ChatGPT4。目前产品虽然仍然处于内测阶段,只支持X (前Twitter) 账户关联登录。 在xAI官网点击后,会跳出Email输入框,把你Twitter使用的邮箱填进去,点击提交,剩下的就是等待被选中内测。从他们发布的数据来看Gro

iclr 2024 | 微软提出全新llm剪枝方法:参数减少25%,大幅提升计算效率-爱代码爱编程

©作者 | 张倩、佳琪 来源 | 机器之心 删除权重矩阵的一些行和列,让 LLAMA-2 70B 的参数量减少 25%,模型还能保持 99% 的零样本任务性能,同时计算效率大大提升。这就是微软 SliceGPT 的威力。 大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非

马斯克旗下xai正式宣布开源大模型grok-爱代码爱编程

Grok-1         目前,xAI关于Grok-1没有透露更多信息。         官网放出的信息如下—— 基础模型在大量文本数据上训练,未针对任何特定任务进行微调。314B参数的MoE,有25%的权重在给定token上处于激活状态。2023年10月,xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。截至到目前为止,,Grok

[晓理紫]每日论文分享(有中文摘要,源码或项目地址)-爱代码爱编程

专属领域论文订阅 VX 扫吗关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持 如果你感觉对你有帮助可以扫吗关注,每日准时为你推送最新论文 分类: 大语言模型LLM视觉

openbayes 一周速览|fewjoint 基准数据集上线、一键克隆使用迁移学习进行花卉分类-爱代码爱编程

公共资源速递 This Weekly Snapshots ! 5 个数据集: * FewJoint 基准数据集 * 今日头条文本分类数据集 * 序列猴子开源数据集 1.0 * 蝴蝶图像分类数据集 * Skin Types 油性、干性和正常皮肤类型数据集 2 个教程: * 使用迁移学习进行花卉分类 (DesNet121) * 量化 V

迁移学习怎么用-爱代码爱编程

如果想实现一个计算机视觉应用,而不想从零开始训练权重,比方从随机初始化开始训练,更快的方式是下载已经训练好权重的网络结构,把这个作为预训练,迁移到你感兴趣的新任务上。ImageNet、PASCAL等等数据库已经公开在线。许多计算机视觉的研究者已经在上面训练了自己的算法,训练要耗费很长时间,很多GPU,有人已经经历过这种痛苦,可以下载这种开源的权重,为你自己

pytorch dataset、dataloader长度-爱代码爱编程

pytorch 可以直接对 Dataset 对象用 len() 求数据集大小,而 DataLoader 对象也可以用 len(),不过求得的是用这个 loader 在一个 epoch 能有几多 iteration,容易混淆。

【机器学习-爱代码爱编程

  机器学习的过程本质上是一个不断通过数据训练来提升模型在对应评估指标上表现的过程。在此过程中,为模型提供有效的反馈并基于这些反馈进行持续的调整是至关重要的。只有当这个过程顺利进行时,模型才能得到有效的训练,机器才能真正实现

【机器学习】降维与度量学习 | 多维度嵌入,主成分分析,核化线性降维-爱代码爱编程

文章目录 1 K近邻学习2 降维方式一——多维嵌入3 降维方式二——主成分分析4 降维方式三——核化线性降维5 降维方式四——流形学习5.1 等度量映射5.2 局部线性嵌入 1 K近邻学习 K