代码编织梦想

评论家:大型语言模型可以通过工具交互式批评进行自我修正(iclr2024)-爱代码爱编程

1、写作动机: 大语言模型有时会显示不一致性和问题行为,例如产生幻觉事实、生成有缺陷的代码或创建令人反感和有毒的内容。与这些模型不同,人类通常利用外部工具来交叉检查和改进他们的初始内容,比如使用搜索引擎进行事实检查,或者使用代码解释器进行调试。作者受到了这一观察的启发写了这一文章。 2、主要贡献: (1)提出了统一的CRITIC框架,通过集成各种

解决大型语言模型中的幻觉问题:前沿技术的综述-爱代码爱编程

大型语言模型中的幻觉问题及其解决技术综述 摘要 大型语言模型(LLM)如GPT-4、PaLM和Llama在自然语言生成能力方面取得了显著进步。然而,它们倾向于产生看似连贯但实际上不正确或与输入上下文脱节的幻觉内容,这限制

大模型帮你给程序打日志|icse24论文分享-爱代码爱编程

贺品嘉 香港中文大学(深圳)助理教授 国家海外高层次人才 ,研究方向为软件可靠性、软件测试、智能运维等。谷歌学术引用超3900次。主导的自动化日志分析开源项目LogPAI在GitHub上被star 4000余次,并被45

波束形成器制导的目标说话人提取-爱代码爱编程

波束形成器制导的目标说话人提取 第二章 目标说话人提取之《BEAMFORMER-GUIDED TARGET SPEAKER EXTRACTION》 文章目录 波束形成器制导的目标说话人提取前言一、任务二

【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估-爱代码爱编程

本次分享论文为:An Empirical Evaluation of LLMs for Solving Offensive Security Challenges 基本信息 原文作者:Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg

优化大型语言模型表现的策略与方法-爱代码爱编程

在人工智能的世界里,大型语言模型如同 GPT-4 这样的存在,已经成为了一个璀璨的明星。这些模型的强大之处在于它们能够处理各种语言任务,比如写作、翻译和提问等。但是,想要让这些模型发挥出最大的作用,我们需要掌握一些技巧来提升它们的表现。本文将介绍一些实用的策略。 一、明确你的需求 在与语言模型的互动过程中,我们需要详细地阐述任务和要求。由于这些模型不具

基于大语言模型的云故障根因分析|顶会eurosys24论文-爱代码爱编程

*马明华 微软主管研究员 2021年CCF国际AIOps挑战赛程序委员会主席(第四届) 2021年博士毕业于清华大学,2020年在佐治亚理工学院做访问学者。主要研究方向是智能运维(AIOps)、软件可靠性。近年来在ICS

【ai大语言模型】chatgpt在地学、gis、气象、农业、生态、环境等领域中的应用-爱代码爱编程

以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助阅读、文献信息提取、辅助论文审稿、新闻撰写、科技绘图、地学

self-爱代码爱编程

论文链接:https://arxiv.org/pdf/2203.11171.pdf 又到了读论文的时间,内心有点疲惫。这几天还是在看CoT的文章,今天这篇是讲如何利用self-consistency(自我一致性)来改进大语言模型的思维链推理过程。什么是self-consistency呢,读完论文感觉可以这么解释,就是有个渣男/大语言模型,你问了他五次昨天

大语言模型(llm)token解读-爱代码爱编程

1. 什么是token? 人们经常在谈论大模型时候,经常会谈到模型很大,我们也常常会看到一种说法: 参数会让我们了解神经网络的结构有多复杂,而token的大小会让我们知道有多少数据用于训练参数。 什么是tok

干货|如何用mongodb atlas和大语言模型,高效构建企业级ai应用?-爱代码爱编程

利用生成式 AI 强化应用程序为客户打造令人叹服、真正差异化的体验意味着将人工智能建立在事实的基础之上。这种事实来自于您的数据,更具体地说,来自于您最新的操作数据。 无论您是提供具有高级语义搜索的高度个性化体验,还是生

今日arxiv最热nlp大模型论文:coling2024发布数据集揭示从莎士比亚时期开始的性别偏见-爱代码爱编程

引言:利用大语言模型修正诗歌中的性别偏见 很多朋友可能都听过这么一句话,“女人,你的名字叫弱者”,通常会声称这是英国大文豪莎士比亚的名言。这句话是来源于莎士比亚最著名的戏剧作品 Hamlet,而且是由戏剧故事的主人公Hamlet王子说出。由此可见,从莎士比亚时期开始就有性别偏见的影子。 该研究收集了韵诗和诗歌的数据集,研究其中的性别刻板印象,并提出了一

llm长度外推研究1——外推结果及原因分析-爱代码爱编程

近期,随着大模型(LLM)的兴起,关于它的长度外推性质,也受到了业界的关注。关于外推,有一个美好的愿景,即,我们总是希望用更短的文本来训练LLM,但希望在推理时,LLM仍然可以处理更长的文本。如果这一假设成立,那将使得训练成

深度学习的发展历史(深度学习入门、学习指导)-爱代码爱编程

目录 🏀前言 ⚽历史 第一代神经网络(1958-1969) 第二代神经网络(1986-1998) 统计学习方法的春天(1986-2006) 第三代神经网络——DL(2006-至今) 🏐总结 前言 学习任一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来  ———by BryantLJ 本专栏想要按照深度学习发展历史的流

llm之长度外推(一)| 基于位置编码的长度外推研究综述_length extrapolation of transformers-爱代码爱编程

论文:Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding地址:https://arxiv.org/abs/2312.17044         Transformer自诞生以来就席卷了NLP领域,因为它具有对序

手把手教你高效训练256k超长上下文窗口大模型(附代码)_大模型长上下文窗口技术-爱代码爱编程

教程来自元象XVERSE公众号 元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K,支持输入25万汉字,让大模型应用进入“长文本时代”。参数量和高质量数据量决定了大模型的计算复杂度

万字长文再论大语言模型的位置编码及其外推性-爱代码爱编程

©作者 | 绝密伏击 单位 | 奇虎360算法专家 现在,众多大型模型已开始支持长文本的推理,如最新的 GPT4 Turbo 能处理超过 128k 的内容,而 Baichuan2 也可应对最长为 192K 的文本。但受显存资源约束,这些模型在训练时并不一定会处理如此长的文本,其预训练阶段通常仅涉及约 4k 的内容。 因此,如何在推理

哈工大中文mistral介绍(chinese-爱代码爱编程

Chinese-Mixtral-8x7B基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练。扩充后的词表显著提高了模型对中文的编解码效率,并通过大规模开源语料对扩词表模型进行增量预训练,使模型具备

中文mixtral-爱代码爱编程

前言 大家好久不见。最近大模型又有了一些新的发展趋势。一个比较热门的是基于混合专家(Mixture-of-Experts, MoE)结构的大模型,其中Mistral.ai发布的Mixtral-8x7B(实际激活约13B参数量)得到了广泛关注。这种模型与早期的LLaMA一类大模型在结构上有一些不同之处,其中主要在全连接层上引入了多个专家(Mixtral中是

linux部署mixtral-爱代码爱编程

前提说明: 这次实践用了两张A800(80G),每张卡消耗70G显存,总计140G step1:下载模型 从huggingface(需科学上网)和modelscope两个平台下载模型 step2:安装vLLM 之