Skip to content

bm25Plus.py

概述

retrieval/retrieverModules/bm25Plus.py 在标准的字面频率覆盖算法模型 BM25 上扩充出一种改良版的实现机制(这与学术文献中改进版的 BM25+ 或带惩罚/重赋权的模型有关)。这种改良机制致力于当文档的文本长度发生极度变化时(特别长或特别短),防止其 TF-IDF 分值出现极度偏向特定某一长度范围文档从而遮蔽掉其实真正相关的核心数学公式的情况而做出的长度惩罚平衡修复等一系列算法调优机制包。

典型核心接口与封装

class BM25PlusRetriever(BM25Retriever)

集成或重新派生出具有防过拟合长文本的 BM25+ 核心分发机制组件引擎类定义。

_compute_plus_scores(...) -> list

执行加入特定惩罚 delta 系数项之后,去纠正因极度短但包含满查询项的无用标题或者极度长被过度冲淡但本质上是非常重要解题步骤的长推理篇幅得分修正机制具体实现的挂载模块结构调用处实现分发功能接口代码点。

Math-RAG 毕业设计项目