困惑度
缺点:只能反应模型输出是否类似于测试文本
人工
可解析测评集
比如选择题、填空题等,让模型回答,然后计算正确率
比如MMLU(Massive Multitask Language Understanding)、MMLU-PRO、IF-EVAL、BBH、MATH、GPQA
大模型测评
参考
你知道用什么指标评价一个大模型的好坏吗?PPL,MMLU,MATH,GPQA,BBH,IF-EVAL,MMLU-PRO_哔哩哔哩_bilibili: 你知道用什么指标评价一个大模型的好坏吗?PPL,MMLU,MATH,GPQA,BBH,IF-EVAL,MMLU-PRO_哔哩哔哩_bilibili

