[RFC] 057 - RAG Eval & Benchmark #3714
arvinxx
started this conversation in
RFC | 特性开发
Replies: 1 comment 7 replies
-
看了几个dataset的结构,发现我们可能要对dataset的内容进行同步分块、向量化,而非之前的可以异步分块、向量化:
|
Beta Was this translation helpful? Give feedback.
7 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
背景
RAG 是一个深坑,如果要提升性能,非常重要的一点就是要做好 Benchmark ,然后在 Benchmark 基础上来评估改造的效果。@cy948 在 https://github.com/cy948/lobe-chat-rag-benchmark 中介绍了接下来我们的构建 Benchmark 的思路。
目前 LobeChat 已经初步具备了 RAG + 异步任务流的能力,因此我们可以尝试做一些更进一步的自动化流程探索。
思路
首先 RAG 的评测会直接采用 RAGAS 框架,它所需要的评测数据集结构为:
以 FinLongEval 数据集为例,单测评测对的数据结构如下:
在 LobeChat 中,我们一次 RAG 调用能得到的数据有:
因此理论上现有的数据是可以完全满足 RAGAS 评测所需要的字段,但是手动操作比较麻烦,因此我们需要有一个自动化的方案,解决批量跑任务很麻烦的问题。
设计
执行任务。点击执行,就针对每一条数据执行 RAG 异步任务;
一次执行需要生成一次执行报告,报告的生成数据可以符合 RAGAS 的数据格式,并导出文件或发到 S3 上
进展
.PDF
can not be chunked #3720Beta Was this translation helpful? Give feedback.
All reactions