evalGenerationComparison.py

概述

scripts/evalGenerationComparison.py 或处于相关统计分析包下的该模块，作为进阶的高级评价系统后制汇总处理程序端。其设计通常用于抓取来自同一个评测题典库但是由几个处于竞争比较关系下的（例如本地 Qwen-14B 模型跑的结果与远端使用的 GPT-4 生成结果）多次评判保存生成出的多版本多组打分的 logs/reports，进行深度的成绩交叉对照、生成比较并渲染为报告结构比对表图和显著性对照等高层次测试数据的统计加工展示的业务执行包裹模块。

主要工作及函数操作说明等

`_load_competing_reports(paths_list: list) -> dict`

搜集由前面的跑批评测生成遗留下来的被指认的多个处于对照关系中的成绩结构单数据模型对象或解析为包含元信息的字典合集工具并拉取统一进入内存等处理合并操作机制环境依赖获取等装配函数点实现。

`_compute_delta_and_win_rate(report_struct_a, report_struct_b) -> dict`

由于对比的不单单是大分平均值的数字叠加，对于两组的解答还会比较有多少问题是 A 系统战胜了 B 回答更好的并提取具体的对应 “胜负平分布（Win/Tie/Lose）” 以及诸如在哪些“核心指标，如忠实性大指标、不正确率等大项”差额或者是变动比结构差量对比矩阵抽取和差异比较业务方法核心策略实现层函数对象包装处等等。

`_export_comparison_views(delta_stats, out_folder)`

把获取得的胜负及各种不同测试对象的矩阵转换为比如针对汇报排版或者是可视化用的两两并列交叉大表以及直观的提升回落高亮的数值呈现等文件落地或进行导出支持渲染的视图数据处理等输出序列化格式装出和展示工具功能实施输出管理环节调配函数等结构等。

`main()`

作为被专门命令和传参起跑执行并接受一系列如 --report-baseline xx.json --report-candidate yy.json 进行启动运行并反馈结果比对的命令操控入口执行起始包装拉起运行服务环境函数操作功能实现起始端点。

evalGenerationComparison.py ​

概述 ​

主要工作及函数操作说明等 ​

_load_competing_reports(paths_list: list) -> dict ​

_compute_delta_and_win_rate(report_struct_a, report_struct_b) -> dict ​

_export_comparison_views(delta_stats, out_folder) ​

main() ​