评估

了解 Haystack 中管道或组件评估的所有信息。

Haystack 拥有评估整个管道或单个组件（如检索器、阅读器或生成器）所需的全部工具。本指南将解释如何在不同场景下评估管道以及如何理解指标。

使用评估及其结果来

评估选项

评估单个组件或端到端管道。

评估单个组件有助于理解性能瓶颈并一次优化一个组件，例如检索器或与生成器一起使用的提示。

端到端评估会检查完整管道的使用情况，并仅评估最终输出。管道被视为一个黑盒子。

使用真实标签或根本不使用标签。

大多数统计评估器需要真实标签，例如与查询相关的文档或预期的答案。相比之下，大多数基于模型的评估器在没有任何标签的情况下工作，只需遵循提示指令。但是，提示中包含的少样本标签可以改进评估器。

基于模型的评估（使用语言模型）或统计评估。

基于模型的评估使用具有提示指令的 LLM 或较小的微调模型来评分管道输出的各个方面。统计评估不需要模型，因此是一种更轻量级的评分管道输出的方法。有关更多信息，请参阅我们关于基于模型评估和统计评估的文档。

评估器	评估答案或文档	基于模型或统计	需要标签
AnswerExactMatchEvaluator	答案	统计	是
ContextRelevanceEvaluator	文档	基于模型	否
DocumentMRREvaluator	文档	统计	是
DocumentMAPEvaluator	文档	统计	是
DocumentRecallEvaluator	文档	统计	是
FaithfulnessEvaluator	答案	基于模型	否
LLMEvaluator	用户定义	基于模型	否
SASEvaluator	答案	基于模型	是

要了解有关我们与 Ragas 和 DeepEval 评估框架集成的更多信息，请访问 RagasEvaluator 和 DeepEvalEvaluator 组件文档。

要开始使用实际示例，请查看我们的评估教程或下面的相关菜谱。

🧑‍🍳食谱

更新于 3 个月前