跳转至

如何看待《义务教育常用词表(草案)》出版并对外发布

这是本人在知乎的回答

如何看待《义务教育常用词表(草案)》出版并对外发布?#

【回答】

买了一本来看。

感觉主要是依靠经验来定的,辅以数据支持。词表包含词条、拼音、分级、词性、义类5项信息。分4级,分别对应小学3段和初中。义类是根据《现代汉语分类词典》,具体分类依据是什么,我不清楚。

收词比较严,但语文学习常常要学临时短语,也就是词语的”语“。

有些关键问题语焉不详。比如书上说到使用了“中小学语文教材语料库”(500万字),但是没有列出词条在这个关键语料库中的数据。另外,稍早的一条消息说这个语料库是183万字,包括主要的4套初中、4套小学语文教材。

厦门大学国家语言资源检测与研究教育教材中心语料库 ​ 另有佐证:

第二届教育教材研讨会在福建武夷山召开 ​ 这个词表还使用几个别的语料库,但是具体怎么使用的,没有详细说明。

编教材、编教学辅助/测试材料可以用这个词表来做大致检验,但无法看作严格的词语“学习范围”,因为教学往往是以教材/学习材料为基础的,所谓“随文”识字识词也。

发现一点小问题

“音序表”与“义类表”词头逐条对齐检查是否一致,发现

  • “音序表”:
    • “漂浮”条词性标“形”错误;
    • “漂浮”缺一附条,对应另表“捌五Gd(冒失轻浮类)”项下的“漂浮3”条
    • “笔记本”少一附条,对应另表“贰八Cb(电脑及配件)”项下的“笔记本2”条
    • “引狼入室”标为2级,但在另表中标为3级。
    • “生火”标为2级,但在另表中标为1级。
  • “义类表”:
    • “重振旗鼓”当作“重整旗鼓”;
    • “追根溯源”当作“追本溯源”
    • “摧毁”重复一次
    • “阻击”重复一次

以下是吐槽

如能发布“中小学语文教材语料库”(500万字)的详细数据,如字表、词表、字词聚类、篇目聚类,当更有价值。当然,能开放使用这个语料库,再加上一些研制好同时可调整的算法,那就更好了。目前没有找到这样的语料库。

之所以这么说,是因为要想使用这个资料,必须先在电脑中重建,这既费工,也难免出错,实在是不必要的麻烦。(可能是因为学术成果必须呈现为纸质出版物才能被出资方认可,但这种要求是很糟糕的。)

在学术成果免费服务公众这一方面,台湾做得不错。像我用过的,台湾教育当局的《國小學童常用字詞調查報告書》(2002)《常用語詞調查報告》,以及著名的《異體字字典》《重編國語辭典修訂本》《國語小字典》,都是免费在线共享。