评估
了解 Haystack 中管道或组件评估的所有信息。
Haystack 拥有评估整个管道或单个组件(如检索器、阅读器或生成器)所需的全部工具。本指南将解释如何在不同场景下评估管道以及如何理解指标。
使用评估及其结果来
- 判断您的系统在给定域上的表现如何,
- 比较不同模型的性能,
- 识别管道中表现不佳的组件。
评估选项
评估单个组件或端到端管道。
评估单个组件有助于理解性能瓶颈并一次优化一个组件,例如检索器或与生成器一起使用的提示。
端到端评估会检查完整管道的使用情况,并仅评估最终输出。管道被视为一个黑盒子。
使用真实标签或根本不使用标签。
大多数统计评估器需要真实标签,例如与查询相关的文档或预期的答案。相比之下,大多数基于模型的评估器在没有任何标签的情况下工作,只需遵循提示指令。但是,提示中包含的少样本标签可以改进评估器。
基于模型的评估(使用语言模型)或统计评估。
基于模型的评估使用具有提示指令的 LLM 或较小的微调模型来评分管道输出的各个方面。统计评估不需要模型,因此是一种更轻量级的评分管道输出的方法。有关更多信息,请参阅我们关于 基于模型 评估和 统计 评估的文档。
评估器组件
| 评估器 | 评估答案或文档 | 基于模型或统计 | 需要标签 |
|---|---|---|---|
| AnswerExactMatchEvaluator | 答案 | 统计 | 是 |
| ContextRelevanceEvaluator | 文档 | 基于模型 | 否 |
| DocumentMRREvaluator | 文档 | 统计 | 是 |
| DocumentMAPEvaluator | 文档 | 统计 | 是 |
| DocumentRecallEvaluator | 文档 | 统计 | 是 |
| FaithfulnessEvaluator | 答案 | 基于模型 | 否 |
| LLMEvaluator | 用户定义 | 基于模型 | 否 |
| SASEvaluator | 答案 | 基于模型 | 是 |
评估器集成
要了解有关我们与 Ragas 和 DeepEval 评估框架集成的更多信息,请访问 RagasEvaluator 和 DeepEvalEvaluator 组件文档。
要开始使用实际示例,请查看我们的评估教程或下面的相关菜谱。
其他参考资料
📓 教程: 评估 RAG 管道
🧑🍳食谱
更新于 3 个月前
