大语言模型评定普通话水平的效果

补记:有道平台有语音测评API

昨晚用大语言模型给11段普通话测试录音(短文和自由表达)评定等级,仅仅告诉模型分为六级,没有给出任何标准。

从下面的结果能看出来,目前大模型有明显的讨好、免责倾向,靠中间给分。

结果还算可以,不算离谱。如果配合一些测评和提示技巧,如多次对比标准音评定、分项综合算分,选取更合适的模型(所用千问qwen-omni-turbo-0119是多模态模型,其专用语音理解模型目前没有正式发布,不可用),我预计能做出一个有一定可靠性的有吸引力的小应用。

国测员评定 qwen-omni-turbo-0119评定 误差级数
一甲 二甲 2
一甲 二甲 2
一甲 一乙 1
一乙 二甲 1
一乙 一甲 -1
二甲 二甲 0
二甲 二甲 0
二乙 二甲 -1
二乙 一甲 -3
三甲 二甲 -2
三甲 (仅给出描述) -

评论