Skip to main content

Evaluation

Metrics

类别指标优点缺点
准确性Accuracy简单直观过于粗糙
准确性Accuracy@K反映潜力需要多次采样
准确性Numerical Error细粒度仅适用数值任务
效率Avg Length反映成本不考虑质量
效率Avg Steps反映推理风格难以量化
质量Format Correctness易于检测不保证正确性
质量Coherence全面评估需要人工