Skip to content

loaders.py

概述

dataStat/loaders.py 是针对 dataStat 统计系统专属抽取的一层关于特定图表业务所特需的数据反序列化或者多路数据源适配结构获取包。它被设计用于快速剥离底层诸如由于带有特定元数据 [Chunk-Info, Math-Term-Metadata] 之类带有特殊结构的来源对象的导入与打平机制提取环节实现提供特定服务。

主要接口和数据流转函数说明

_load_raw_json(path: str) -> dict

chunkStatistics 之类直接使用:用来将位于诸如 processed/xxx.json 之类的底层序列进行直接的基础包裹读取和由于不存在文件或者格式错乱阻断的拦截结构防死读取组件方法操作提取实现等底层逻辑提供环境。

_flatten_chunk_metadata(chunk_list: list) -> list[dict]

许多存储的文本切片常常包裹着带有一万字符的大文本及额外单独的比如 pagessource_book 对象结构字典树,这个操作方法将被循环迭代把上述嵌套剥离拍平如成为 [{'text':'...', 'page': 5}] 等为后续进行 pandas 列生成或者快速矩阵提取准备无阻挂载结构和扁平对象的实施环境提供接口方法提取功能组块等。

_filter_empty_or_broken(flatten_list) -> list

执行统计前的数据清洗预处理防空洞程序组装。拦截所有因为分词器分坏了导致内容等于空或者极其离散不可统计点提供抛离并向控制台打出一条诸如在什么文档发现了脏废字段的方法点用以往下抛出给后续画图程序安全无杂点等平直数据的过滤环境等方法装组功能控制逻辑应用处理实施。

Math-RAG 毕业设计项目