代码编织梦想

开源版heygen!tango数字人,瞄准全身动作生成,本地部署实测-爱代码爱编程

前段时间爆火的图片数字人:LivePortrait、AniPortrait、MuseTalk、EchoMimic等,核心原理都是通过 姿态/音频等 驱动单张图片,生成对应的视频。 我们将上述图片数字人,称为 2D 真人,这

开源端侧实时数字人项目,效果炸裂,附一键整合包_数字人开源项目-爱代码爱编程

最近 AI 数字人异常火爆,多款开源方案,效果炸裂,直逼付费方案! 也许你也发现了,市面上的数字人方案,琳琅满目。不过,大致可以分为:卡通数字人和真人数字人。 本篇主要讲真人数字人,真人数字人又可以进一步细分为: 2D

小爱打工,你躺平!让「微信ai小助理」接管你的文件处理,一个字:爽!_利用ai整理微信传输文件-爱代码爱编程

前两天,搞了个微信 AI 小助理-小爱(AI),爸妈玩的不亦乐乎。 零风险!零费用!我把AI接入微信群,爸妈玩嗨了,附教程(下) 最近一直在迭代中,挖掘小爱的无限潜力: 链接丢给它,精华吐出来!微信AI小助理太强了,附

17k star!开源最快语音克隆方案,fishspeech 焕新升级,本地部署实测_fish-爱代码爱编程

前段时间,和大家分享过一款语音克隆神器: FishSpeech 实测,免费语音克隆神器,5分钟部署实战,让川普给你来段中文绕口令? 时隔 5 个月,fish-speech 发布重大更新,最新版本已到 1.5。 今日分享

阿里开源tts cosyvoice 再升级!语音克隆玩出新花样,支持流式输出,本地部署实测-爱代码爱编程

最近,语音克隆领域精彩迭出! 前段时间刚分享过升级版 FishSpeech: 17k star!开源最快语音克隆方案,FishSpeech 焕新升级,本地部署实测 最近看到阿里开源的 CosyVoice 又发布了重大更

永久免费语音服务!微软 azure 注册实操,零成本实现tts自由_azure tts-爱代码爱编程

前段时间,和大家分享了一款免费的语音合成服务 EdgeTTS: EdgeTTS,支持粤语等各种方言,无需部署无需Key,完全免费 后台有小伙伴反应,最近访问不了。。。 什么情况?实测发现,被qiang了,需要手动添加代

【飞桨ai实战】大作业:从0到1搭建一个图像识别系统_pp-爱代码爱编程

写在前面 在了解了图像分类和目标检测的基本概念后,很多同学发现现有的算法模型往往只能识别特定类别的目标,面对全新的目标类别,这些训好的模型往往就无能为力了。 本次分享将带领大家从 0 到 1 搭建一个面向现实场景的商品识

ai全栈利器开源!带你用ollama+qwen2.5-爱代码爱编程

最近,AI 编程工具非常火爆,从 Cursor、V0、Bolt.new 再到最近的 Windsurf。 本篇我们先来聊聊开源方案-Bolt.new,产品上线四周,收入就高达400万美元。 无奈该网站国内访问速度受限,

dify 保姆级教程之:零代码打造图像生成专家(上)_dify智能体call function-爱代码爱编程

前段时间,陆续和大家分享了Dify 搭建智能体的实战系列文章: Dify 保姆级教程之:零代码打造 AI 搜索引擎Dify 保姆级教程之:零代码打造个性化记忆助手Dify 保姆级教程之:零代码打造票据识别专家 本次分享,

dify 保姆级教程之:零代码打造个性化记忆助手_dify 会话变量-爱代码爱编程

上篇和大家分享了用 Dify 搭建一个简单的 AI 搜索引擎: Dify 保姆级教程之:零代码打造 AI 搜索引擎 今天继续分享 Dify 智能体搭建的相关内容。 最近在关注大模型长期记忆的问题,前天分享了阿里开源的

dify 保姆级教程之:零代码打造票据识别专家_dify 发票-爱代码爱编程

前段时间,陆续和大家分享了Dify 搭建智能体的实战系列文章: Dify 保姆级教程之:零代码打造 AI 搜索引擎Dify 保姆级教程之:零代码打造个性化记忆助手 相信实操过的同学对 Dify 的基本组件已有所了解,本篇

dify 保姆级教程之:零代码打造图像生成专家(下)_dify 图像生成-爱代码爱编程

昨天,利用 Dify 打造了一个图像生成智能体: Dify 保姆级教程之:零代码打造图像生成专家(上) 无奈后端调用不够丝滑,今天:将上篇的智能体,换用聊天助手-工作流编排的方式搭建,从而将图像生成专家接入微信机器人-小

dify 保姆级教程之:零代码打造 ai 搜索引擎_保姆级安装dify-爱代码爱编程

最近各大厂商都在搞智能体平台,前有字节的 Coze,后有腾讯的元器、支付宝的百宝箱。 之前免费出圈的 Coze 从 8 月开始收费之后,很多小伙伴们在问有没有好用的开源平替? 就笔者目前的体验而言:Dify / Fast

ollama 更新!本地跑 llama3.2,轻量级+视觉能力,能媲美gpt-爱代码爱编程

前段时间,Meta 开源了 Llama 3.2 轻量化模型,为移动端跑大模型提供了新选择! 同时,Llama 3.2 视觉模型(Llama 3.2 Vision)也正式开源,号称媲美 GPT-4o。 前两天,Llama

开源视频生成 pyramid flow 本地部署实测_pyramid-爱代码爱编程

前段时间,给微信 AI 小助理-小爱接入了文生视频的能力: 我把「国产Sora」接入了「小爱」,邀你免费体验 采用的是智谱开源的 CogVideo 模型,最近开源社区新出了一款视频生成模型 - pyramid-flow-

从文字到世界:一键生成全景3d场景的技术革命_文本生成3d场景-爱代码爱编程

  随着虚拟现实(VR)、增强现实(AR)以及游戏行业的蓬勃发展,3D场景的生成技术正变得越来越重要。传统的3D建模方法不仅耗时且需要专业的技能,而新兴的技术则试图简化这一过程。本文将介绍一种全新的技术框架——LayerPano3D,它能够根据简单的文本输入,自动生成全景、可探索的3D场景。这项技术不仅能够极大地提升用户体验,还将为多个领域带来前所未

根据文本提示生成真实世界3d场景_根据文字生成场景-爱代码爱编程

  实现一个能够根据文本提示生成真实世界3D场景并自适应摄像机轨迹的系统是一个相当复杂的工程挑战,它涉及到多个深度学习和计算机视觉领域的高级技术。下面我将为你概述一个可能的实现流程,并给出一些关键代码片段示例,但请注意这仅是一个简化版的概念验证方案。 1. 环境准备 首先,你需要确保你的开发环境支持深度学习库(如PyTorch或TensorFlo

探索vr游戏《gorilla tag》的成功之路:kerestell smith的创新之旅-爱代码爱编程

Kerestell Smith,一位独立游戏开发者,凭借对虚拟现实(VR)技术的深刻理解和对人类行为模式的敏锐洞察,成功打造了《Gorilla Tag》这款广受欢迎的VR游戏。这款游戏不仅简单有趣,而且极具社交互动性,成为VR领域的一个现象级作品。Smith的成功故事,以及他对VR技术未来发展的见解,为我们提供了深入了解VR行业和创新过程的窗口。 《Go

49k 下载!最强开源语音克隆tts:本地部署实测,2秒复刻你的声音_f5-爱代码爱编程

最近,社区开源了一款语音克隆 TTS 模型 - F5-TTS,效果非常惊艳,不到一周,HuggingFace 模型下载量高达 49K! 实操只需 2 秒音频即可合成超拟人的语音,推理速度优于前段时间和大家分享的: Fis

202k 下载!最强开源ocr:本地部署,邀你围观体验_got-爱代码爱编程

前段时间,社区开源了一款通用 OCR 大模型 - GOT-OCR2.0,效果非常惊艳,不到一个月,HuggingFace 上,模型权重下载量高达 202K! 最近打算在项目中用到它,顺便做一个测评,分享给大家。 1. G