在 ChatGPT 等大语言模型(LLM)盛行的当下,一直不温不火的向量数据库(Vector Data Base ,VectorDB)开始受到大家的关注。
一般而言,大模型在回答具有普遍性的问题上游刃有余,但在回答垂直专业的问题上,就显得不那么出色,例如,大模型在医疗行业会存在回答不准确的情况。 这时,为大模型配备一个「超级大脑」变得尤为重要,这个「超级大脑」可以存储一些专有知识,这样一来,大模型就能从海量的数据中快速检索出最合适的答案,提高它们的准确性和效率,而向量数据库就充当了「超级大脑」角色。 其实,早在 2013 年谷歌就发表了一篇名为《Distributed Representations of Words and Phrases and their Compositionality》论文,文中介绍了一种名为 “Word2Vec” 的方法,用来将文字表示为向量。 而十年后的今天,“Word2Vec” 一词仍被屡次提起,并逐渐发展为我们耳熟能详的向量数据库。 尽管向量数据库最初的设计和大模型没有什么关系。但是传统的关系型数据库和 NoSQL 数据库无法满足大模型时代对数据处理效率和存储能力的需求,而向量数据库的高效存储、管理和查询能力,大大提高了大模型的训练和推理效率,因此其成为了大模型时代的重要基础设施。 目前向量数据库已被广泛应用,典型如推荐系统、自然语言处理、图像搜索和识别等领域,同时也在金融行业、医疗行业和科研领域等实际业务场景中提供了非常好的支持。 但是与此同时,大模型时代也对向量数据库提出了更高挑战。