Open-Retrievals 示例

export HF_ENDPOINT=https://hf-mirror.com

1. 向量模型

数据格式

{'query': TEXT_TYPE, 'positive': List[TEXT_TYPE]}
...

{'query': TEXT_TYPE, 'positive': List[TEXT_TYPE], 'negative': List[TEXT_TYPE]}
...

{(query, positive, label), (query, negative, label), ...}

微调

重排序-交叉编码器
重排序-ColBERT
重排序-LLM微调
- AutoModelForRanking.from_pretrained(model_name_or_path, causal_lm=True)
- 提示: "给定一个带有相关正文的查询，通过提供'是'或'否'的预测来确定文档是否与查询相关。"

考虑更改 fp16 或 bf16
训练时，在TrainingArguments中设置bf16或fp16；推理时，在AutoModelForEmbedding或LLMRanker中设置use_fp16=True

open-retrievals 支持直接微调 BAAI/bge-m3 colbert，只需在微调时不设置 use_fp16=True，并将学习率设置得更小