大语言模型评定普通话水平的效果

补记：有道平台有语音测评API

昨晚用大语言模型给11段普通话测试录音（短文和自由表达）评定等级，仅仅告诉模型分为六级，没有给出任何标准。

从下面的结果能看出来，目前大模型有明显的讨好、免责倾向，靠中间给分。

结果还算可以，不算离谱。如果配合一些测评和提示技巧，如多次对比标准音评定、分项综合算分，选取更合适的模型（所用千问qwen-omni-turbo-0119是多模态模型，其专用语音理解模型目前没有正式发布，不可用），我预计能做出一个有一定可靠性的有吸引力的小应用。

评论