Skip to content

significanceTest.py

概述

scripts/significanceTest.py (或其处于特定包统计里的位置同类验证功能集):此工具为高级的用来衡量和断定本次更改比如修改了重读引擎或者调整了一套基于不同检索方式打分所产出的多轮测试总结果跟之前是否有真正的实质性或者统计学(Statistical Significance)上面可信突破。 而不仅仅是偶尔靠运气的零点几个差异的评测数据科学性验证防抖组件或统计把关脚本应用模块。

主要包含流程及函数等实现

_load_paired_eval_scores(file_a, file_b) -> tuple[list, list]

对于处于同属具有一致参照问题集的对照库,严格且安全的依序拉起两方各个对应的分数序列:如每次对应同样的问题其生成是否正确的分数(常是诸如 [1, 0, 1][0, 1, 1] 等的相同等长的一对评估数值响应列表结构获取方法处理端控制业务等提取函数提供包裹环境组件支持机制等。

_perform_statistical_testing(arr_a, arr_b, method="t-test") -> dict

引入并使用科学打分分析体系工具函数库或者是标准统计如(针对参数或者正态数据的配对样本 Student's t-test 亦或是对于包含排位等的无参数 Wilcoxon signed-rank test)。该测试器使用所指定的对比假设检验推算出它著名的 p-value 值用以往外界展示判断这两种改动到底是不是在统计领域能提供超越噪音偶然的、真正的能证实是存在根本性优化的效果确信指标或者证伪的输出判决提供结果集对象的引擎驱动核心处理方法结构层环境设计部分。

_report_testing_conclusion(stat_results, alpha=0.05)

它会解析上步打出带有具体各种检定信息,拿核心返回和给定的置信下限区间基线如常态的 $5%$ 进行匹配。提供格式化的诸如 “报告显示改版本模型比原系统具有高水准优势,可以确信上线替换”、“仅是轻微提升未能过置信门槛不作为通过修改理由建议打回驳回” 等的决定决策建议断论文字解释生成层反馈处理执行方法功能展示机制输出点控制层实施等包裹业务。

main()

接收双边要进行论断判测成绩包的并启动这整一条严格假设与数学指标鉴定的过程命令拉启的提供接口或者是作为暴露于执行检验工具命令行操控参数解析跑通程序使用的终端服务调用开始包裹点入口提供方法处设计配置区域。

Math-RAG 毕业设计项目