文档API 参考📓 教程🧑‍🍳 菜谱🤝 集成💜 Discord🎨 Studio
文档

评估

了解 Haystack 中管道或组件评估的所有信息。

Haystack 拥有评估整个管道或单个组件(如检索器、阅读器或生成器)所需的全部工具。本指南将解释如何在不同场景下评估管道以及如何理解指标。

使用评估及其结果来

  • 判断您的系统在给定域上的表现如何,
  • 比较不同模型的性能,
  • 识别管道中表现不佳的组件。

评估选项

评估单个组件或端到端管道。

评估单个组件有助于理解性能瓶颈并一次优化一个组件,例如检索器或与生成器一起使用的提示。

端到端评估会检查完整管道的使用情况,并仅评估最终输出。管道被视为一个黑盒子。

使用真实标签或根本不使用标签。

大多数统计评估器需要真实标签,例如与查询相关的文档或预期的答案。相比之下,大多数基于模型的评估器在没有任何标签的情况下工作,只需遵循提示指令。但是,提示中包含的少样本标签可以改进评估器。

基于模型的评估(使用语言模型)或统计评估。

基于模型的评估使用具有提示指令的 LLM 或较小的微调模型来评分管道输出的各个方面。统计评估不需要模型,因此是一种更轻量级的评分管道输出的方法。有关更多信息,请参阅我们关于 基于模型 评估和 统计 评估的文档。

评估器组件

评估器评估答案或文档基于模型或统计需要标签
AnswerExactMatchEvaluator答案统计
ContextRelevanceEvaluator文档基于模型
DocumentMRREvaluator文档统计
DocumentMAPEvaluator文档统计
DocumentRecallEvaluator文档统计
FaithfulnessEvaluator答案基于模型
LLMEvaluator用户定义基于模型
SASEvaluator答案基于模型

评估器集成

要了解有关我们与 Ragas 和 DeepEval 评估框架集成的更多信息,请访问 RagasEvaluatorDeepEvalEvaluator 组件文档。

要开始使用实际示例,请查看我们的评估教程或下面的相关菜谱。

其他参考资料

📓 教程: 评估 RAG 管道

🧑‍🍳食谱