Skip to content

text.py

概述

retrieval/corpusBuilder/text.py 是用于管理对于纯文本段落的处理和精细操作子引擎。在构建最终用于生成索引语料(如向向量数据库注入前或是制作用于全量全文检索引擎建包)前的阶段,承担对 PDF 抽出来的脏字字符串清理(比如页眉页脚页码残料,各种非常诡异的格式排版空格,或者是从 OCR 里拿回来尚未完全连贯的部分)等结构性重组清理。由于数学包含极大量的特化标记符号或者混排情况等难以通过通用切分工具解决。

文本段落操控组装

def clean_text(raw_str: str) -> str

针对特化字符的清洗器、格式化补丁逻辑。

class TextChunker(...)

负责包含根据语意符号(句号、换行,或者是数学章节开始的大标题、公式包围标记)尝试尽量使得每次切分的语块既不要超过最大字符上限也不会粗鲁的从一个重要定律证明的一半一刀两断(动态或者滑动窗口法切割策略的具体部署环境配置代码块)。

Math-RAG 毕业设计项目