代码编织梦想

程序源代码搜索引擎和普通搜索引擎不太一样,我们常见的搜索引擎,例如百度,谷歌, bing,都是词语级的搜索引擎,它们搜索的最小单位,是一个词语(word, term, token),一个词语由多个字符组成,如果想搜索词语中的某几个字符,词语级的搜索引擎就无能为力了,这时候就需要字符级的搜索引擎,例如你要搜索一个手机号码的后4位。

小唐代码搜索引擎(http://www.tanglib.com)是一个字符级的搜索引擎,搜索精度精确到单个字符,适用于程序源代码全文检索,程序语言的每个符号都有特殊的含义,甚至空格都是有意义的,只有字符级的搜索引擎才能实现精确查找。

字符级搜索引擎在搜索多词串联(例如"a b c d")的性能上超过词语级搜索引擎,因为词语级搜索引擎视为多个词组合搜索,组合搜索需要消耗大量时间。

小唐代码搜索引擎目前支持Java,C,JavaScript,PHP,C++,Python,C#,Ruby,GO,TypeScript,CSS,Shell,Scala,Makefile,SQL,Lua,Perl,Dockerfile,Haskell,Rust,TeX,Batchfile,CMake,Visual Basic,FORTRAN,PowerShell,Assembly,Julia等28种程序语言源代码的检索。

小唐代码搜索引擎的源代码来自CodeParrot数据集,这是一个开源的代码数据集,来自于huggingface网站。CodeParrot数据集是很多大语言模型的代码数据集,AI代码生成工具PolyCoder正是基于CodeParrot数据集。

CodeParrot数据集的源代码来自于Github网站,star数量超过100的项目,总共包含123万个项目,730G源代码,1.15亿个代码文件。

除此之外,小唐代码搜索引擎还包含了一些巨型开源项目的检索,有如下项目:

OpenHarmony鸿蒙源代码,安卓13源代码,linux内核源代码6.29,Qt源代码6.5.0,libreoffice源码7.5.2.2,chromium源码,数据库源码(mysql8.0, mongodb, redis, postgres, sqlite)等。

写程序最快的方法就是依葫芦画瓢,程序员只要找到葫芦,画瓢就容易了,所以已有的程序示例对编程非常有帮助。

目前有很多写代码的AI工具,包括chatgpt都可以写代码,小唐源代码搜索引擎的特点是响应更快,可以达到毫秒级,而AI工具的响应速度一般比较慢;另一个区别是AI工具写出的代码正确性无法保障,而小唐源代码搜索引擎搜到的代码来自Github网站,star数量超过100的项目,正确性更有保障。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/bigtang5/article/details/130898798

elasticsearch文档操作:初学者指南(2023年最新版包含dsl语句的使用和resthighlevelclient在java中的使用)-爱代码爱编程

2023年还没有学习Elasticsearch?,那么您将错过最强大、最通用的编程语言之一。 本文将介绍在Elasticsearch对文档分别使用DSL语句和Java High Level REST ClientAPI来对

opensearch与elasticsearch对比-爱代码爱编程

OpenSearch是一个基于Elasticsearch的开源搜索和分析引擎,它与Elasticsearch有很多相似之处,但也有一些不同之处: 开源许可证:OpenSearch使用Apache License 2.0开源许可证,而Elasticsearch使用的是Elastic License。Apache License 2.0是一种广泛使用的开源

mysql之索引初步-爱代码爱编程

1. 索引概念 数据库是⽤来存储数据,在互联⽹应⽤中数据库中存储的数据可能会很多(⼤数据), 数据表中数据的查询速度会随着数据量的增⻓而逐渐变慢 ,从⽽导致响应⽤户请求的速度变慢——⽤户体验差,我们如何提⾼数据库的查询效率

elasticsearch 7.x 基本操作 (crud)-爱代码爱编程

1.概述 Elasticsearch 是一个流行的开源搜索引擎,用于存储、搜索和分析数据。下面是 Elasticsearch 7.x 版本的基本操作(CRUD): 1、创建索引: PUT /index_name {

谷歌seo多久才能见效?谷歌seo见效的参考时间线和效果预估-爱代码爱编程

影响谷歌SEO的效果因素 谷歌SEO的效果因多种因素而异,包括竞争程度、关键词选择、网站优化程度、内容质量和网站的历史等。一般来说,SEO是一个长期的过程,而不是一夜之间见效的事情。e6zzseo(e6zzseo的博客_CSDN博客-seo领域博主)个人经验总结以下是一些关键因素,可以影响SEO的见效时间: 竞争程度:如果您的目标关键词竞争激烈,可能

elk【elasticsearch+logstash+kibana】企业级日志分析系统-爱代码爱编程

文章目录 一、ELK概述1. ELK简介2.ElasticSearch3. Logstash4.Kiabana5.Filebeat6.为什么要用ELK(思考一下)7.ELK的工作原理 二、ELK实验(部署

8.1.0版本elk搭建,开启xpack认证机制_elk8.1.0-爱代码爱编程

8.1.0版本ELK搭建,开启xpack认证机制 部署环境安排下载elk安装包服务器环境配置部署elasticsearch配置认证配置客户端加密的http通信修改elastic配置文件 部署kibana