《Optimize generative AI applications with pgvector indexing: A deep dive into IVFFlat and HNSW techniques》，由 aws 撰写的一片关于 pgvector 索引的文章

《Optimize generative AI applications with pgvector indexing: A deep dive into IVFFlat and HNSW techniques》，由 aws 撰写的一片关于 pgvector 索引的文章。

在 LLM RAG 领域，为了处理较长的输入，通常会将文本拆分成较小的 chunks，然后在一些预处理后，将这些 chunks 通过 embeddings 模型生成 vector，存储于向量数据库中。当用户发起查询时，系统会将查询文本同样通过 embeddings 模型生成 vector，然后在向量数据库中进行相似度搜索，找到最相关的 chunks 作为上下文补充。

postgres 搭配 pgvector 插件，是一种常见的向量数据库实现方式。在向量数据库中进行查询，其实就是寻找和目标向量“最相似”的一组向量，“相似”的度量手段有三种：

* L2 距离（Euclidean Distance）：计算两个向量之间的欧氏距离。
* Cosine 相似度（Cosine Similarity）：计算两个向量之间的夹角余弦值。
* 内积（Inner Product）：计算两个向量的点积。可以衡量向量的相似性。

默认情况下，也就是不建立索引时，pgvector 会进行遍历搜索。为了提高搜索性能，提供了两种索引索引：

* IVFFlat 索引（Inverted File with Flat quantization）：IVFFlat 是一种基于有监督聚类的近似最近邻搜索算法。它通过将向量空间划分为多个 regions。搜索时，首先仅需要搜索各个 regions 的中心点，找出相关 region 后，再搜索 region 内的向量。
* HNSW 索引（Hierarchical Navigable Small World graphs）：HNSW 是一种基于图结构的近似最近邻搜索算法。可以理解为 skiplist，先从最上层（节点最少的层）开始搜索，找到最近点后，作为下一层的起始点继续搜索，逐层往下，直到最底层。

这两种索引都可以显著减少搜索时需要比较的向量数量，从而提升查询速度。而且，为了避免局部最优解，可以设定以多个起始点的方式进行搜索。

文中对 58.6 K 个，总大小为 364 MB 的向量集进行了测试（pgvector 0.6）：

* 不使用索引，搜索耗时 650 ms
* 使用 IVFFlat 索引，建立索引 15.5 s，搜索耗时 2.4 ms
* 使用 HNSW 索引，建立索引 30 s，搜索耗时 1.58 ms

可以看出，使用索引对搜索性能提升是很大的。

<< prev