比较AI模型用于中文校对的效果
最近这一年,我用生成式大语言模型校对了4本书稿,以及一些短篇文字。其间常用几个固定的文段来测试各模型,以选用效果最好的。
实际选用的,开始是Claude 3.5 sonnet,它语感细腻,是让我对AI校对有信心的第一个模型;当时OpenAI的ChatGPT 3.5差得比较多。
Deepseek推出V3后用V3,其中文知识超过了Claude 3.5 sonnet。同时我也发现,谷歌的预览版Gemini 2.0 Pro与它不相上下,但速度比较慢,而且我一直没能在本地调用谷歌的API,所以用Deepseek V3。
这几天谷歌的Gemini 2.0系列模型正式上线,在此我把当前有潜力用于中文稿件校对的模型都试了一下。
据敦煌研究院官网资料判断事实正误。
为比较方便,改正错误每项计2分,优化每项计1分,无效改动计0分,冗余信息每项计-0.5分,错误改动每项计-1分。罚分权重比较低是因为我倾向于:鼓励模型多改,以便尽可能覆盖潜在的问题,然后人工逐一审核、处理模型的改动。
结果如下:
1. gemini-2.0-flash-lite-preview-02-05#
6分:
- 正误
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “5个庙石窟”改为“五个庙石窟”
- “2个窟群”改为“两个窟群”
- 无效改动
- 数字加空
2. gemini-2.0-flash#
11分:
- 正误
- “安息县”改为“瓜州县”
- 逗号改为句号
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “5个庙石窟”改为“五个庙石窟”
- “2个窟群”改为“两个窟群”
- 优化
- 删除逗号
3. gemini-2.0-pro-exp-02-05#
20分:
- 正误
- “安息县”改为“瓜州县”
- “砾石崖断崖”改成“砾石断崖”
- “42”改成“43”
- 逗号改为句号
- “初期”改成“时期”
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “5个庙石窟”改为“五个庙石窟”
- “2个窟群”改为“两个窟群”
- 优化
- 删除逗号
- “第2、第3窟”改为“第2、3窟”
- “文殊菩萨出行图”改为“文殊变”
- 增加“第一批”,2处
- 无效改动
- 增加“东西”
- “定为”改为“公布为”,2处
4. deepsee v3#
10.5分:
- 正误
- “安息县”改为“瓜州县”
- 逗号改为句号
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “5个庙石窟”改为“五个庙石窟”
- “2个窟群”改为“两个窟群”
- 优化
- 删除逗号
- 无效改动
- 加空行
- 冗余信息
- 增加解释
5. claude-3.5-sonnet-20241022#
12分:
- 正误
- “砾石崖断崖”改成“砾石断崖”
- 逗号改为句号
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “5个庙石窟”改为“五个庙石窟”
- “2个窟群”改为“两个窟群”
- 优化
- 增加“榆林窟”
- 删除逗号
- “之”改成“的”
- 无效改动
- “凿建”改成“开凿”,2处
- “定为”改为“公布为”,2处
- 加空行
- 错误改动
- 引号改成西文样式(这时Claude的老问题,可以用TexPro处理)
6. chatgpt-4o#
8分:
- 正误
- 逗号改为句号
- “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
- “2个窟群”改为“两个窟群”
- 优化
- 删除逗号
- “之”改成“的”
- 无效改动
- 加空行
小结#
在以上测试中,gemini-2.0-pro-exp-02-05有明显优势,改正的知识性错误、文字性错误最多,优化处也相当有益,没有误改和冗余输出。老实说,就通常所能投入的精力而言,它肯定比我改得好很多。
然后,gemini-2.0-flash、deepsee v3、claude-3.5-sonnet-20241022三者能力相近。前二者比较新,知识库可能更全面;claude-3.5-sonnet-20241022的语感更好。
deepsee v3对指令的遵守度稍差。claude-3.5-sonnet-20241022也有错误转换引号这个老问题,此外还是比较遵守指令的。
chatgpt-4o仍不堪用。
以上测试自然是相当片面的。但参考以往经验,在用于中文校对这个使用场景中,我觉得结果还是蛮有参考价值。