大语言模型评定普通话水平的效果
补记:有道平台有语音测评API
昨晚用大语言模型给11段普通话测试录音(短文和自由表达)评定等级,仅仅告诉模型分为六级,没有给出任何标准。
从下面的结果能看出来,目前大模型有明显的讨好、免责倾向,靠中间给分。
结果还算可以,不算离谱。如果配合一些测评和提示技巧,如多次对比标准音评定、分项综合算分,选取更合适的模型(所用千问qwen-omni-turbo-0119是多模态模型,其专用语音理解模型目前没有正式发布,不可用),我预计能做出一个有一定可靠性的有吸引力的小应用。
国测员评定 | qwen-omni-turbo-0119评定 | 误差级数 |
---|---|---|
一甲 | 二甲 | 2 |
一甲 | 二甲 | 2 |
一甲 | 一乙 | 1 |
一乙 | 二甲 | 1 |
一乙 | 一甲 | -1 |
二甲 | 二甲 | 0 |
二甲 | 二甲 | 0 |
二乙 | 二甲 | -1 |
二乙 | 一甲 | -3 |
三甲 | 二甲 | -2 |
三甲 | (仅给出描述) | - |