1.解决 Elasticsearch 8.x Java API 中 Update 写入 null 值无效的源码问题
2.Elasticsearch:和 LIamaIndex 的集成
3.ElasticSearch系列连载1. ES版本与开源简介
4.Elasticsearch:使用 LangChain 文档拆分器进行文档分块
5.Canal-adapter1.1.4集成Elasticsearch7.8.0排坑指南及在本地环境运行canal-adapter项目
6.docker-compose快速部署elasticsearch-8.x集群+kibana
解决 Elasticsearch 8.x Java API 中 Update 写入 null 值无效的问题
Elasticsearch 是一个强大而灵活的搜索和分析引擎,广泛应用于大数据场景。源码本文深入探讨 Elasticsearch 8.x Java API 中 Update 操作中写入 null 值无效的源码问题,分享问题排查与解决方法。源码
在使用 Elasticsearch 进行数据新增时,源码我们通常会优先考虑使用 Update 操作,源码深圳八子溯源码燕窝加盟避免对整个文档进行覆盖,源码以便处理多表汇聚场景中的源码部分字段更新需求。然而,源码在进行多个 Update 操作时,源码用 BulkOperation 构建请求,源码并将某个值设为 null,源码却发现这个值没有被正确写入 Index,源码返回结果中的源码 result 为 “noop”。
通过在 Kibana 控制台进行实验,源码我们发现更新数据时遇到的诡异问题是代码中导致的。起初怀疑 Elasticsearch Java API 本身存在 Bug,但深入分析代码后发现,初始化 ElasticsearchTransport 时使用的 JacksonJsonpMapper 通过默认配置导致了 null 值被排除。查看源码得知,这一配置是在初始化 ObjectMapper 时进行的,从而决定了序列化器是否处理 null 值。
解决此问题的关键在于自定义 ObjectMapper 并传递给 JacksonJsonpMapper。修正此配置后,null 值能够成功写入 Elasticsearch。这一经验强调了在使用 Elasticsearch Java API 进行开发时,需仔细审核配置及序列化器设置的重要性,以避免潜在的兼容性问题。
总结而言,本文解析了使用 Elasticsearch 8.x Java API 进行 Update 操作时,写入 null 值无效的问题,并提供了针对性的解决策略。同时,反思在实际开发过程中,应增强对 Elasticsearch 内部实现与配置的理解,以及在项目中的代码审查和测试质量,以确保应用稳定可靠运行。
Elasticsearch:和 LIamaIndex 的集成
Elasticsearch与LLamaIndex集成:构建私有数据框架 LLamaIndex是一个开源的数据框架,专为LLM应用程序设计,用于处理和访问特定领域的私有数据。通过GitHub可以获取该项目的源代码以构建多样化的应用程序。 为了在Docker中设置Elasticsearch,首先,您可以参考"如何在Docker上运行Elasticsearch 8.x"的教程,启动单节点实例。淘宝源码代码使用docker-compose启动,不启用安全配置,如下所示:.env
docker-compose.yml
通过命令行启动后,Elasticsearch和Kibana就安装并运行了,但请注意,生产环境不建议使用这种配置。 在应用设计阶段,我们将使用Jupyter notebook进行。首先安装Python依赖:安装Python依赖的命令
接着创建.env文件,配置OpenAI key:.env
连接到Elasticsearch时,可以使用以下示例代码:连接Elasticsearch的代码示例
然后,加载文档并使用Elasticsearch构建VectorStoreIndex,如文档 pau_graham_essay.txt所示: 在进行基本查询和元数据过滤时,可以利用这些结构进行文本检索。例如,搜索 "weather is so beautiful" 会得到特定结果。然而,自定义过滤器和覆盖查询是Elasticsearch的高级功能,LLamaIndex目前仅支持ExactMatchFilters,其他复杂过滤器可能需要直接在Elasticsearch中使用。 想要深入了解和实践,可以访问我的GitHub项目:github.com/liu-xiao-guo/semantic_search_es,查看相关文件。 继续深入学习高级文本检索技术,如句子窗口检索,将有助于您更好地利用Elasticsearch和LLamaIndex。ElasticSearch系列连载1. ES版本与开源简介
诞生背景
现有的技术在数据的结构化和存储方面已经做的很好了,但是在硬盘上的原始数据并不能充分发挥数据的价值,尤其是当你需要基于这些数据做一些实时的决策时,就更容易出现使用上的困难。
ES是一个 分布式,可扩展,实时 的搜索与数据分析引擎,能够有效解决在全文搜索 或者 结构化数据的实时分析问题。
不只是大型企业,如Wikipedia,Guardian,Stack Overflow,GitHub在使用。它也可以在你的笔记本上运行,或者扩展到几百台服务器,服务数PB的数据。
ES带来了革命,但是编程netty源码ES并没有使用或者创造革命性的技术:全文搜索,数据分析和分布式数据存储都是已经有的技术概念。 ES是通过将这三个独立的部分进行了巧妙地融合成了一个独立的、实时的应用程序,这才是ES带来的革命。
目前,大多数数据库在从数据中提取可操作的知识方面都出奇地无能。虽然他们可以通过时间戳进行筛选或者提取特定的字段,但是它们不能轻松的进行全文搜索,进行同义词搜索以及对数据进行相关性排序。
更重要的是,面对具有一定规模的数据,如果不对数据做大量的离线预处理、批处理,大多数数据库是无法提供实时服务的。
ES简介ES是在Apache Lucene之上开发的。
Apache Lucene是一个开源,先进,性能强劲,功能强大的搜索引擎。但它只是一个库,不仅需要使用Java代码才能使用,而且还需要理解Lucene内部逻辑和结构,整体用起来十分复杂。
虽然ES也是JAVA编写的,内部也是使用了Lucene来进行索引和搜索,但是通过十分科学的设计将Lucene的复杂性屏蔽在了ES强大且简单的RESTful API之后。
当然,ES不只是Lucene和全文搜索,它还是:
支持文档分布式存储的全字段实时搜索引擎
支持实时数据分析的分布式引擎
支持数百节点和PB级别的结构化与非结构化数据
同时,支持RESTful API,支持命令行,支持多种语言的SDK,使用Apache 2开源协议(已经经过多次调整)。
关于ES诞生的小故事:
在谈及当年接触 Lucene 并开发 Elasticsearch 的初衷的时候, Shay Banon 认为自己参与 Lucene 完全是一种偶然,当年他还是一个待业工程师,跟随自己的新婚妻子来到伦敦,妻子想在伦敦学习做一名厨师,而自己则想为妻子开发一个方便搜索菜谱的应用,所以才接触到 Lucene。直接使用 Lucene 构建搜索有很多问题,包含大量重复性的工作,所以 Shay Banon 便在 Lucene 的基础上不断地进行抽象,让 Java 程序嵌入搜索变得更容易,郓城网站源码经过一段时间的打磨便诞生了他的第一个开源作品“Compass”,中文即“指南针”的意思。之后,他找到了一份面对高性能分布式开发环境的新工作,在工作中他渐渐发现越来越需要一个易用的、高性能、实时、分布式搜索服务,于是决定重写 Compass,将它从一个库打造成了一个独立的 server,并创建了开源项目。第一个公开版本出现在 年 2 月,在那之后 Elasticsearch 已经成为 Github 上最受欢迎的项目之一。关于ES的各个版本版本发布日期内容1.0.年2月日聚合分析、API、备份恢复等特性2.0.年月日存储压缩可配置、API语法升级等特性5.0.年月日使用Lucene 6.x、SDK、API升级、Text/Keyword、存储与性能大幅提升6.0.年月日排序、滚动升级、数据可靠、性能提升等特性7.0.年4月日使用Lucene 8.x、Security免费、Zen2、稳定性等特性8.0.年2月日Security默认启用、NLP支持、KNN、API升级、存储与性能提升ES开源协议历史开源背景Apache 2.0开源协议是最开放的协议之一:你可以修改源码将其整合到自己的产品中,并且选择不再继续开源。不像GPL等开源协议,它们会有禁止Copyleft的声明:如果使用了开源软件,你的软件也必须开源。
由于Apache 2.0协议的开放性,可能你自己开发的开源软件会被你的对手使用反过来和你进行竞争。
冲突产生这个事情就发生在了ES上,亚马逊于 年基于 Elasticsearch 推出自己的服务,将其称为 Amazon Elasticsearch Service。随后双方发生了激烈的争议。
协议变更在年1月,Elastic 在官网发文称将对Elasticsearch和Kibana在许可证方面进行了重大的更改,决定将 Elasticsearch 和 Kibana 的底部整理源码开源协议由 Apache 2.0 变更为 SSPL 与 Elastic License,主要原因为了阻止云厂商的「白嫖」。
之后,Amazon表示完全不能接受,ES随后发布了对应声明Amazon:完全不能接受 — 为什么我们必须变更 Elastic 许可协议
达成和解就在最近的年2月日,软件公司 Elastic 和亚马逊就一起商标侵权诉讼达成了和解。亚马逊开始从网站的各个页面以及其服务和相关项目名称中删除“Elasticsearch”一词,并由 Elastic 销售的 Elastic Cloud 取而代之。这是 Elastic 的一次重大胜利,该公司曾多次与亚马逊发生冲突。
“现在 AWS 和 AWS Marketplace 上唯一的 Elasticsearch 服务是 Elastic Cloud,我们认为这是消除市场混乱的重要一步。只有一个 Elasticsearch,而且它只来自 Elastic。”Elastic 创始人兼首席技术官 Shay Banon 说。亚马逊之前还将 Amazon Elasticsearch Service 重命名为 Amazon OpenSearch Service。从现在开始,如果你在 AWS、Azure、Google Cloud 中看到“Elasticsearch”,就会知道它肯定来自 Elastic。
ES开源状态总结从Elastic 7.版本开始,Elastic 将把 Apache 2.0 授权的 Elasticsearch 和 Kibana代码转为SSPL和Elastic License的双重授权,让用户可以选择使用哪个授权。SSPL是MongoDB创建的一个源码可用的许可证,以体现开源的原则,同时提供保护,防止公有云提供商将开源产品作为服务提供而不回馈。SSPL允许自由和不受限制的使用和修改,但如果你把产品作为服务提供给别人,你也必须在SSPL下公开发布任何修改以及管理层的源代码。
关注持续更新:下一节 - ElasticSearch系列连载2. 如何本地安装与调试ES
原文:/post/Elasticsearch:使用 LangChain 文档拆分器进行文档分块
本交互式笔记本展示了如何使用 Elasticsearch 和 Langchain 进行文档分块处理,以及如何在分块文档中应用嵌套密集向量支持。首先,确保已安装 Elasticsearch 及 Kibana,并部署了ML节点和模型,选择Elastic Stack 8.x进行安装。设置相关环境变量,获取Elasticsearch证书并将其拷贝至当前目录。在项目根目录下创建`workplace-docs.json`文件,用于后续数据准备。
通过打入命令创建notebook,连接至Elasticsearch。使用Langchain的工具将原始文档分割成更小的块,此例使用示例工作场所搜索数据集。Langchain提供多种其他加载器用于数据获取,详情请查阅其核心加载器或加载器集成文档。生成的`temp.json`文件将存储分割后的文档块。
从Huggingface加载模型,选择minilm-l6-v2用于从块中创建文本嵌入。需根据Elasticsearch配置修改用户名及密码,下载过程可能需时。在Kibana中查看模型下载状态,确保部署成功。使用管道进行推理,并将嵌入存储在Elasticsearch索引中。在ML节点上运行的句子Transformers minilm-l6-v2模型,设置index_pipeline进行推理。
展示实用工具,如父子分割函数,将文档拆分为多个段落,并返回父文档和子段落。同时,选择将父文档分块为更小的文档,实现更细粒度的索引。此外,提供一个漂亮的响应函数,以更易于阅读的格式展示Elasticsearch响应。
示例中,将文档完整拆分为段落,将完整文档存储为父文档,并将这些段落作为嵌套文档存储,同时保持与父文档的链接。通过使用父子分割器将完整文档拆分,并索引至Elasticsearch,实现嵌套文档的存储。在Elasticsearch中运行推理,将嵌入存储在索引中。在Kibana中查看文档的摄入格式。
执行嵌套搜索,以查找与查询匹配的段落,并在`inner_hits`中返回结果。通过Langchain在内部执行此搜索,调整查询以适应需求。重写`doc_builder`函数,使其使用段落而不是完整文档填充`site_content`。
整个交互式笔记本的源代码可于指定GitHub仓库下载,此仓库提供执行上述操作的完整脚本,供用户参考和执行。
Canal-adapter1.1.4集成Elasticsearch7.8.0排坑指南及在本地环境运行canal-adapter项目
在集成canal的过程中,我遇到了众多问题,尽管网上有诸多解答,但质量不尽如人意。于是,我下载源码进行本地编译,逐一排查,总结出以下要点:
以下是常见问题:
1、如何使canal-adapter1.1.4支持ES7系列?
2、常见错误信息
3、canal-adapter1.1.4支持的具体版本号范围
问题一:让canal-adapter支持ES7系列
首先,下载canal对应版本的源码到本地,使用编码工具打开。由于canal1.1.4最高支持的版本是6.4.3,在canal-adapter的elasticsearch模块中,引用的ES版本号为6.4.3,因此需要将ES的依赖版本号升起来。
修改完毕后,重新编译项目,会发现有几处代码编译报错。因为不同版本的ES的代码语法有所不同,只需要稍作改动即可。
代码编译通过后,修改canal-adapter下的launcher模块中的application.yml文件,修改后的示例如下:
修改完配置文件后,接下来配置数据库与ES索引的对应关系。位于elasticsearch模块下的资源文件目录下的es文件夹下,默认有3个文件。为了方便演示,先删除了两个文件。
然后在ES中创建相应的mapping结构,用于将数据库数据同步到ES中。
完成上述步骤后,即可启动canal-adapter本地项目。
问题二:关于常见的报错信息
canal-adapter在使用过程中,通常会遇到很多报错。以下逐一为大家解答:
采坑点之一:在本地运行前一定先在maven的root模块下安装,安装完毕后再运行CanalAdapterApplication启动类。
如果没有先安装直接运行,会出现报错,提示找不到OuterAdapter类的实现类。
通过报错信息可以发现,当前提示是ESAdapter这个类找不到。根据抛出异常代码所在行通过源码打断点进一步排查,发现找不到target目录下的plugin目录下面的jar包。
有两种方式可以解决这个问题,第一种是在canal-adapter项目的launcher模块下的main方法下面新建文件夹canal-adapter/plugin,将编译后的es的jar包放进去,然后修改源码中关于本地文件加载的路径。
另外一种方法就是,运行前还是先使用maven的install安装一下。
采坑点之二:报错信息Config dir not found
在本地调试过程中,发现有报错Config dir not found。通过报错行打断点进一步排查,发现是项目启动完毕后在执行数据初始化阶段没有找到配置文件所导致的异常。
这个问题也比较好解决,我们可以在canal-adapter的launcher模块的配置文件中新建一个叫es的文件夹,把elasticsearch模块下的es文件夹拷贝过来,即可解决这个问题。
采坑点之三:报错Elasticsearch exception [type=index_not_found_exception, reason=no such index [XXXX]]
这个问题,大家可以检查一下ES里面对应的索引名称是否存在,索引的mapping结构是否已经创建;当然,可能还有其他情况下导致出现这个问题,暂时没有遇到。
采坑点之四:报错Not found the mapping info of index: XXX
这个问题从报错信息来看,总感觉像是ES中索引的Mapping结构没有创建好。我用多种方式进行mapping结构的创建,可一直报错。
根据报错堆栈信息,通过打断点的方式进一步排查,我们会看到在ESConnection类的行有这样一些被注释了的代码。
这也正是canal-adapter1.1.4为什么不支持ES7以上的版本了。我们只需要将这些被注释的代码打开即可解决这个问题。
通过上述代码的改造,我们可以对改完后的内容进行测试,全量同步数据和增量同步数据。
canal-adapter为我们提供了全量同步数据的接口,我们在canal-adapter的launcher模块的com.alibaba.otter.canal.adapter.launcher.rest目录下可以看到有一个类叫做CommonRest,其里面提供全量同步数据的方法和条件同步数据的方法。
直接使用postman发送如下请求即可完成数据的全量同步,效果如下,同时,如果数据库当前表的数据发生变更,canal-adapter也能及时监听到并同步到ES中。
关于canal-adapter配置文件的,大家可以参考一下官网文档:github.com/alibaba/cana...
另外还有一个网上经常提到的name: es6和es7,通过观察源码,在adapter1.1.4版本中,直接使用es即可。
如上,canal-adapter1.1.4在本地运行起来了,并且全量同步数据和增量同步数据都已触发并生效。
通过kibana也可以查询到对应的数据了。
最后,这个项目在本地编译后在target目录下会生成一个canal-adapter的文件夹,这个文件夹可以拷贝出来直接运行。
在windos和linux都可以运行。我这边编译后,在本地直接运行bat文件,程序正常并且可以正常全量同步数据和增量同步数据。
不过遇到很奇怪的一个问题,将编译后的文件放在linux系统运行,则会不同的刷错误日志如下。
暂时还未解决当前问题。不过我这边在目前的实际应用场景中,使用不到adapter,因为它的使用场景比较有效,对数据有较高的要求。
这个问题在github上提了issues。
地址:canal-adapter在本地环境可正常运行,编译后在服务器上运行出错;· Issue # · alibaba/canal
docker-compose快速部署elasticsearch-8.x集群+kibana
在GitHub上,你可以找到我的资源库,那里详细整理了我欣宸的所有原创作品,包括配套的源码:github.com/zq/blog... 本文将引导你通过docker-compose快速部署Elasticsearch 8.x版本的集群,并配合Kibana使用。特别提示,如果你使用的是Linux系统,请注意配置文件的编写。接下来,我们将一步步启动应用并进行验证,包括设置不带密码的集群和确保其正常运行。 在学习的道路上,你并不孤单,欣宸原创的内容将全程陪伴你。让我们一起探索和实践,让技术助力你的成长。Spring Cloud Sleuth 原理简介和使用
在微服务架构中,用户请求通常从前端A出发,经过中间件B、C(如负载均衡和网关)转发,最终到达后端服务D、E。为了追踪这种多服务请求流程,我们需要服务链路追踪工具,如Spring Cloud Sleuth。它基于Google的Dapper项目,提供了一套专业术语来记录和追踪服务间的交互。
首先,我们需要在`maven pom`文件中配置Spring Cloud Sleuth相关依赖,如构建zipkin-server和user-service等服务。在gateway-service中,通过ZuulFilter实现链路数据的拦截和自定义,比如添加操作人信息,同时利用`Tracer`的`addTag`方法。此外,Spring Cloud Sleuth支持通过消息组件(如RabbitMQ)来传输链路数据,这比HTTP方式更灵活和持久。
在案例中,将原先通过HTTP上传的链路数据改为通过RabbitMQ发送,使得数据存储更为可靠。Zipkin Server原本存储在内存中,可通过配置将其数据持久化到Mysql,如8.0.版本的数据库。同样,Elasticsearch也是存储链路数据的可行选择,通过安装和配置ES和Kibana,可以实时查看和分析数据。
最后,要将链路数据存储在Elasticsearch中,需要安装对应版本的ES,通过Kibana界面访问,如..2.:,然后在Zipkin中配置ES索引,以便在Kibana中可视化和分析请求链路。所有这些操作基于Spring Cloud Sleuth提供的API和工具进行,同时,项目源码和相关文献是进一步学习和实践的重要资源。