比较AI模型用于中文校对的效果

最近这一年，我用生成式大语言模型校对了4本书稿，以及一些短篇文字。其间常用几个固定的文段来测试各模型，以选用效果最好的。

实际选用的，开始是Claude 3.5 sonnet，它语感细腻，是让我对AI校对有信心的第一个模型；当时OpenAI的ChatGPT 3.5差得比较多。

Deepseek推出V3后用V3，其中文知识超过了Claude 3.5 sonnet。同时我也发现，谷歌的预览版Gemini 2.0 Pro与它不相上下，但速度比较慢，而且我一直没能在本地调用谷歌的API，所以用Deepseek V3。

这几天谷歌的Gemini 2.0系列模型正式上线，在此我把当前有潜力用于中文稿件校对的模型都试了一下。推理类模型的校对效果通常不佳，未作测试；在某些专项校对中也许值得尝试。

为比较方便，改正错误每项计2分，优化每项计1分，无效改动计0分，冗余信息每项计-0.5分，错误改动每项计-1分。罚分权重比较低是因为我倾向于：鼓励模型多改，以便尽可能覆盖潜在的问题，然后人工逐一审核、处理模型的改动。

结果如下：

1. gemini-2.0-flash-lite-preview-02-05#

alt text

6分：

正误
1. “全国文物重点保护单位”改为“全国文物重点保护单位”，2处
2. “5个庙石窟”改为“五个庙石窟”
3. “2个窟群”改为“两个窟群”
无效改动
1. 数字加空

alt text

11分：

alt text

20分：

alt text

10.5分：

alt text

12分：

alt text

8分：

在以上测试中，gemini-2.0-pro-exp-02-05有明显优势，改正的知识性错误、文字性错误最多，优化处也相当有益，没有误改和冗余输出。老实说，就通常所能投入的精力而言，它肯定比我改得好很多。

然后，gemini-2.0-flash、deepsee v3、claude-3.5-sonnet-20241022三者能力相近。前二者比较新，知识库可能更全面；claude-3.5-sonnet-20241022的语感更好。

deepsee v3对指令的遵守度稍差。claude-3.5-sonnet-20241022也有错误转换引号这个老问题，此外还是比较遵守指令的。

chatgpt-4o仍不堪用。

以上测试自然是相当片面的。但参考以往经验，在用于中文校对这个使用场景中，我觉得结果还是蛮有参考价值。