Skip to content

buildTermMapping.py

概述

scripts/buildTermMapping.py 或者其在工具目录下的同类结构:此辅助跑批脚本往往用以遍历整个数学项目提取完毕后的那海量的具有多级映射或复杂同义词对应知识表的词典库进行清洗并生成建立以在内存极快读取搜索的一个高效散列查询索引工具文件(建立 Term -> page_idx/Book -> chunks 或者其它能从数学专有名词倒查回出处的结构地图映射的转储维护操作构建组件)。

函数与接口操作集合

_scan_for_term_files(base_dir) -> list

搜集项目下面各个分布在其子文件夹如针对不同参考册子或书中的含有抽取提取 terms 定义的 all.json 以构成待融合归一化的资源树。

_merge_and_resolve_conflicts(map_list) -> dict

如果出现了不同源头里的同一术语(譬如高数书里和统计学里的同一名词)由于可能具有不同解析方式在此进行消除矛盾或制作带有同名词但指向多篇来源的一对多合并多路组装列表数据结构的控制融合合并整理工具实施策略应用操作点。

_write_compiled_mapping(merged_dict, out_path)

持久化存储这个合并打通过的大索引结构或者字典映射到一个供检索和构建提问语料生成参考的高速查询依赖库中进行存盘归档方法接口功能。

main()

用以外部指令强制调度重刷合并该术语库体系字典的方法映射并使得其最新的解析词条等能够注入到其它查询模块被使用的刷新开关执行程序调度工具位置层起点逻辑调用控制操作端端面等业务装载结构方法等。

Math-RAG 毕业设计项目