大模型测评指标——困惑度

困惑度

缺点:只能反应模型输出是否类似于测试文本

人工

可解析测评集

比如选择题、填空题等,让模型回答,然后计算正确率
比如MMLU(Massive Multitask Language Understanding)、MMLU-PRO、IF-EVAL、BBH、MATH、GPQA

大模型测评

参考

你知道用什么指标评价一个大模型的好坏吗?PPL,MMLU,MATH,GPQA,BBH,IF-EVAL,MMLU-PRO_哔哩哔哩_bilibili: 你知道用什么指标评价一个大模型的好坏吗?PPL,MMLU,MATH,GPQA,BBH,IF-EVAL,MMLU-PRO_哔哩哔哩_bilibili