大模型测评指标——困惑度

doggie · 2026 年4 月 29 日 06:21

困惑度

缺点：只能反应模型输出是否类似于测试文本

比如选择题、填空题等，让模型回答，然后计算正确率
比如MMLU（Massive Multitask Language Understanding）、MMLU-PRO、IF-EVAL、BBH、MATH、GPQA

你知道用什么指标评价一个大模型的好坏吗？PPL，MMLU，MATH，GPQA，BBH，IF-EVAL，MMLU-PRO_哔哩哔哩_bilibili: 你知道用什么指标评价一个大模型的好坏吗？PPL，MMLU，MATH，GPQA，BBH，IF-EVAL，MMLU-PRO_哔哩哔哩_bilibili

话题	回复	浏览量
大模型如何评测？ 🛠工具与编程人工智能 , 大模型 , 指标 , 评测	31	2025 年11 月 24 日
【转载】大模型有哪些评估指标？ 🛠工具与编程测评指标 , 转载 , 大模型	17	2025 年11 月 25 日
【转载】大语言模型评估的常用方法、指标与框架 🛠工具与编程大模型 , 测评指标 , 转载	113	2025 年11 月 24 日
【转载】大模型评测指标全解析：如何精准衡量AI模型的性能 🛠工具与编程大模型 , 评测 , 指标	29	2025 年11 月 24 日
大模型评测工具DeepEval 🛠工具与编程评测 , 指标	14	2025 年11 月 25 日