DocumentMRREvaluator
该DocumentMRREvaluator 使用真实标签评估 Haystack 管道检索到的文档。它会检查真实文档在检索到的文档列表中的排名。此指标称为平均倒数排名 (MRR)。
| pipeline 中的最常见位置 | 单独使用或在评估管道中使用。应在已生成 Evaluator 输入的单独管道之后使用。 |
| 强制运行变量 | "ground_truth_documents": 一个列表,其中包含另一组真实文档。这表示每个问题有一组真实文档。 "retrieved_documents": 一个列表,其中包含另一组检索到的文档。这表示每个问题有一组检索到的文档。 |
| 输出变量 | 一个包含 - score: 一个介于 0.0 到 1.0 之间的数字,表示平均倒数排名- individual_scores: 一个介于 0.0 到 1.0 之间的个体倒数排名列表,用于检索文档列表和真实文档列表的每个输入对 |
| API 参考 | Evaluators (评估器) |
| GitHub 链接 | https://github.com/deepset-ai/haystack/blob/main/haystack/components/evaluators/document_mrr.py |
概述
您可以使用DocumentMRREvaluator 组件来评估 Haystack 管道(例如 RAG 管道)检索到的文档与真实标签的匹配情况。更高的平均倒数排名更好,表示相关文档出现在检索文档列表中的靠前位置。
初始化DocumentMRREvaluator 时,不需要任何参数。
用法
单独使用
下面是一个示例,我们使用DocumentMRREvaluator 组件来评估两个查询检索到的文档。对于第一个查询,有一个真实文档和一个检索文档。对于第二个查询,有两个真实文档和三个检索文档。
from haystack import Document
from haystack.components.evaluators import DocumentMRREvaluator
evaluator = DocumentMRREvaluator()
result = evaluator.run(
ground_truth_documents=[
[Document(content="France")],
[Document(content="9th century"), Document(content="9th")],
],
retrieved_documents=[
[Document(content="France")],
[Document(content="9th century"), Document(content="10th century"), Document(content="9th")],
],
)
print(result["individual_scores"])
# [1.0, 1.0]
print(result["score"])
# 1.0
在 pipeline 中
下面是一个示例,我们使用DocumentRecallEvaluator 和DocumentMRREvaluator 在管道中,用于评估两个答案并将其与真实答案进行比较。运行管道而不是单独的组件可以简化计算多个指标的操作。
from haystack import Document, Pipeline
from haystack.components.evaluators import DocumentMRREvaluator, DocumentRecallEvaluator
pipeline = Pipeline()
mrr_evaluator = DocumentMRREvaluator()
recall_evaluator = DocumentRecallEvaluator()
pipeline.add_component("mrr_evaluator", mrr_evaluator)
pipeline.add_component("recall_evaluator", recall_evaluator)
ground_truth_documents=[
[Document(content="France")],
[Document(content="9th century"), Document(content="9th")],
]
retrieved_documents=[
[Document(content="France")],
[Document(content="9th century"), Document(content="10th century"), Document(content="9th")],
]
result = pipeline.run(
{
"mrr_evaluator": {"ground_truth_documents": ground_truth_documents,
"retrieved_documents": retrieved_documents},
"recall_evaluator": {"ground_truth_documents": ground_truth_documents,
"retrieved_documents": retrieved_documents}
}
)
for evaluator in result:
print(result[evaluator]["individual_scores"])
# [1.0, 1.0]
# [1.0, 1.0]
for evaluator in result:
print(result[evaluator]["score"])
# 1.0
# 1.0
更新于 大约 1 年前
