Skip to content

stats_builder.py

概述

dataStat/stats_builder.py 囊括并且抽离了所有同文本数学分析(如向量特征抽取分布,文字和公式频段特征提取计算)以及用于出具长尾数据情况反馈(也就是核心各类百分位数据结构的拼装)的专门算法对象方法区实现模块,它是统计阶段系统里面最计算密集的一类工具池。

典型子程序接口和处理函数说明部分情况

_compute_length_distribution(text_blocks: list) -> dict

接受拍平文本结构提取其中的真实字数或者是在基于分词器跑后的特定长度的计算;并生成并返回带有包含 min, max, mean, std (标准差) 、各核心百分位的长型结构结果字典用以分析数据跨度长短悬殊状态方法操作等设计实现部分计算返回点组块函数。

_detect_outliers_iqr(numbers: list, scale=1.5) -> tuple[float, float, list]

专门提供实现四分位间距距离(Interquartile Range - IQR)异常值的检测防偏算法组件端:反馈诸如下边缘阈值,上边界及其被判定为偏离超过了例如长度上千等异常对象原始文本索引组的反馈收集与计算操作实施结构使用环境功能部分算法支撑提供实现拦截功能机制点等层面的逻辑组实现体执行接口。

_aggregate_sources_frequency(metadata_list) -> dict

对于每条含有它来自特定的某原书如 “复变函数” 提供总数收集及分析当前知识库偏向比如是分析某一块偏科严重缺乏等聚合指标分类占比排序图表的分类计数的运算实现接口函数。

Math-RAG 毕业设计项目