利用多向量和高级搜索数据模型设计城市数据-云智核

利用多向量和高级搜索数据模型设计城市数据

发布时间：2025-11-04 00:11:54 来源：云智核作者：人工智能

译者 | 李睿

审校 | 重楼

本文介绍如何使用Milvus、利用量和GenAI、高级LangChain、搜索数据设计数据YoLo等工具为向量数据库创建、模型构建和设计复杂的城市非结构化数据应用程序。

本文将介绍如何构建高级数据模型，并将其用于摄取和各种搜索选项。高级对于记事簿（Notebook）部分，搜索数据设计数据将运行混合多向量搜索，模型对结果进行重新排序，城市并显示结果文本和图像。利用量和

通过完成这个应用程序，将全面了解使用Milvus、数据摄取对象半结构化和非结构化数据，以及使用开源模型构建健壮高效的数据检索系统。对于未来的功能改进，可以使用这些结果为LLM、Slack机器人将数据流传输到Apache Kafka中，以及作为街道摄像头搜索引擎的基础。

Milvus是一个流行的开源向量数据库，为应用程序提供高性能和可扩展的向量相似性搜索。Milvus采用分布式架构，将计算和存储分离，并将数据和工作负载分布在多个节点上。这是Milvus具有高可用性和弹性的主要原因之一。Milvus针对各种硬件进行了优化，并支持大量索引。

可以在Milvus快速入门中获得更多细节。云服务器提供商

有关运行Milvus的其他选项，可以查看部署页面。

JSON

此外还摄取了一个REST提要，用于满足从摄像头记录中传入的纬度和经度的天气条件，其中包括海拔、观测日期、风速、风向、能见度、相对湿度和温度等参数。

JSON

Python

这两个向量是image_vector和weather_text_vector，它们包含一个图像向量和一个文本向量。为主键id和每个向量添加索引。对于这些索引有很多选择，它们可以极大地提高性能。

然后使用与模式名称和类型匹配的标量字段对集合进行简单的插入操作。在插入之前，必须对图像和天气文本运行嵌入函数。然后插入记录。再采用Attu检查数据。

将构建一个Jupyter记事簿来查询和报告多向量数据集。

利用Hugging Face的一个模型“all-MiniLM-L6-v2”，一个句子转换器来为短文本字符串构建密集嵌入。这篇文章是对离街头摄像头最近的地点的天气细节的简短描述。

参见：使用HuggingFace整合

使用标准的resnet34 Pytorch特征提取器，经常使用它来处理图像。

如前所述，Milvus是一个流行的开源向量数据库，为人工智能应用程序提供高性能和可扩展的向量相似性搜索。

建立两个搜索(AnnSearchRequest)，将其组合在一起进行混合搜索，其中将包括一个重排器(Reranker)。

这里显示了对两个向量重新排序的混合搜索结果，展示了一些输出标量字段和从存储路径读取的图像。

混合搜索的结果可以迭代，可以很容易地访问选择的所有输出字段。filepath包含到本地存储映像的链接，可以从key.entity.filepath访问。键包含所有的结果，而key.entity拥有在上一步混合搜索中选择的所有输出字段。

迭代重新排序的结果，并显示图像和天气细节。

由于已经加载了一个包含天气数据的集合，可以将其用作RAG(检索增强生成)的一部分。将利用本地的Ollama、LangChain和Milvus构建一个完全开源的RAG应用程序。

Python

以下是与Slack聊天的输出。

可以在下面的GitHub中找到记事簿、摄取脚本和交互式RAG应用程序的所有源代码。

在这个记事簿中，已经了解如何使用Milvus对同一集合中的多个向量进行混合搜索，并对结果进行重新排序。还看到了如何构建一个复杂的数据模态，其中包含多个向量和许多标量字段，这些字段表示与数据相关的大量元数据。

学习了如何使用Python将JSON、图像和文本摄取到Milvus中。

最后，构建了一个小型聊天应用程序，用于查看交通摄像头附近位置的天气。

用户如果构建自己的应用程序，可以查看下面的参考资料。

在下面的列表中，可以找到有助于了解更多关于为Milvus使用预训练的嵌入模型、对文本数据进行搜索的资源，以及一个很好的嵌入函数示例记事簿。

原文标题：Utilizing Multiple Vectors and Advanced Search Data Model Design for City Data，作者：Tim Spann，Timothy Spann

随便看看