跳转至

比较AI模型用于中文校对的效果

最近这一年,我用生成式大语言模型校对了4本书稿,以及一些短篇文字。其间常用几个固定的文段来测试各模型,以选用效果最好的。

实际选用的,开始是Claude 3.5 sonnet,它语感细腻,是让我对AI校对有信心的第一个模型;当时OpenAI的ChatGPT 3.5差得比较多。

Deepseek推出V3后用V3,其中文知识超过了Claude 3.5 sonnet。同时我也发现,谷歌的预览版Gemini 2.0 Pro与它不相上下,但速度比较慢,而且我一直没能在本地调用谷歌的API,所以用Deepseek V3。

这几天谷歌的Gemini 2.0系列模型正式上线,在此我把当前有潜力用于中文稿件校对的模型都试了一下。

敦煌研究院官网资料判断事实正误。

为比较方便,改正错误每项计2分,优化每项计1分,无效改动计0分,冗余信息每项计-0.5分,错误改动每项计-1分。罚分权重比较低是因为我倾向于:鼓励模型多改,以便尽可能覆盖潜在的问题,然后人工逐一审核、处理模型的改动。

结果如下:

1. gemini-2.0-flash-lite-preview-02-05#

alt text

6分:

  • 正误
    1. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    2. “5个庙石窟”改为“五个庙石窟”
    3. “2个窟群”改为“两个窟群”
  • 无效改动
    1. 数字加空

2. gemini-2.0-flash#

alt text

11分:

  • 正误
    1. “安息县”改为“瓜州县”
    2. 逗号改为句号
    3. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    4. “5个庙石窟”改为“五个庙石窟”
    5. “2个窟群”改为“两个窟群”
  • 优化
    1. 删除逗号

3. gemini-2.0-pro-exp-02-05#

alt text

20分:

  • 正误
    1. “安息县”改为“瓜州县”
    2. “砾石崖断崖”改成“砾石断崖”
    3. “42”改成“43”
    4. 逗号改为句号
    5. “初期”改成“时期”
    6. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    7. “5个庙石窟”改为“五个庙石窟”
    8. “2个窟群”改为“两个窟群”
  • 优化
    1. 删除逗号
    2. “第2、第3窟”改为“第2、3窟”
    3. “文殊菩萨出行图”改为“文殊变”
    4. 增加“第一批”,2处
  • 无效改动
    1. 增加“东西”
    2. “定为”改为“公布为”,2处

4. deepsee v3#

alt text alt text

10.5分:

  • 正误
    1. “安息县”改为“瓜州县”
    2. 逗号改为句号
    3. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    4. “5个庙石窟”改为“五个庙石窟”
    5. “2个窟群”改为“两个窟群”
  • 优化
    1. 删除逗号
  • 无效改动
    1. 加空行
  • 冗余信息
    1. 增加解释

5. claude-3.5-sonnet-20241022#

alt text

12分:

  • 正误
    1. “砾石崖断崖”改成“砾石断崖”
    2. 逗号改为句号
    3. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    4. “5个庙石窟”改为“五个庙石窟”
    5. “2个窟群”改为“两个窟群”
  • 优化
    1. 增加“榆林窟”
    2. 删除逗号
    3. “之”改成“的”
  • 无效改动
    1. “凿建”改成“开凿”,2处
    2. “定为”改为“公布为”,2处
    3. 加空行
  • 错误改动
    1. 引号改成西文样式(这时Claude的老问题,可以用TexPro处理)

6. chatgpt-4o#

alt text

8分:

  • 正误
    1. 逗号改为句号
    2. “全国文物重点保护单位”改为“全国文物重点保护单位”,2处
    3. “2个窟群”改为“两个窟群”
  • 优化
    1. 删除逗号
    2. “之”改成“的”
  • 无效改动
    1. 加空行

小结#

在以上测试中,gemini-2.0-pro-exp-02-05有明显优势,改正的知识性错误、文字性错误最多,优化处也相当有益,没有误改和冗余输出。老实说,就通常所能投入的精力而言,它肯定比我改得好很多。

然后,gemini-2.0-flash、deepsee v3、claude-3.5-sonnet-20241022三者能力相近。前二者比较新,知识库可能更全面;claude-3.5-sonnet-20241022的语感更好。

deepsee v3对指令的遵守度稍差。claude-3.5-sonnet-20241022也有错误转换引号这个老问题,此外还是比较遵守指令的。

chatgpt-4o仍不堪用。

以上测试自然是相当片面的。但参考以往经验,在用于中文校对这个使用场景中,我觉得结果还是蛮有参考价值。

评论