addMissingTerms.py
概述
scripts/addMissingTerms.py 或者是位于 scripts/tools/ 里的同样实现:通常这是一个用以手动干预并针对系统用语言模型自动生成的关键词系统里边存在的缺陷或者遗漏了人工想强调作为考核基础和重点检索的一些偏门专有词进行强制补充和向系统 map.json / all.json 里安全注入并产生挂靠更新的增查补录辅助控制功能脚本部件方法机制实现模块。
典型子程序及其构成
_parse_user_provided_list(text_or_file) -> list
提供对人写的随意的文本(如逗号或空行隔开的缺失新名词词汇结构记录)向合法内部提取装箱对象如规范的小写词条数据字典清洗化解析处理转换能力接口组件包装。
_search_best_matching_page(term_name, corpus_index) -> list
当一个由业务提出来的并没有附带哪本书哪一页出现的空名词塞入时刻它提供到全文或者全局里面搜寻倒排来为这个外部孤儿新生词汇找回它的挂载坐标或者是知识原始母体来源依据以填补生成关联结构的依赖等补偿推测链接工具业务搜索绑定补充找回功能部件等。
_inject_and_rebuild_system_index(new_terms, mapping_tree)
执行真正的结构接驳:不仅是在单纯的文字字典后方增列;同时还要把它关联挂靠的位置同步刷新或者建立新引用节点注入到现役系统的全局依赖关系网络地图对象(Dict / Tree)中维护关联的统一刷新更新整合方法等核心操作调用控制结构层接口服务。
main()
允许开发者由控制台输入直接形如 --add-words "调和级数, 黎曼流形" --force-sync 的操作直接把由于先前没有正确 OCR 或者是模型漏抽的一批强专业指定需要被强制进入业务生命周期的补充命令快速入口程序包裹实现调控调用终端接入起始门面接口点端执行使用挂件。