如何看待《义务教育常用词表(草案)》出版并对外发布
这是本人在知乎的回答
如何看待《义务教育常用词表(草案)》出版并对外发布?#
【回答】
买了一本来看。
感觉主要是依靠经验来定的,辅以数据支持。词表包含词条、拼音、分级、词性、义类5项信息。分4级,分别对应小学3段和初中。义类是根据《现代汉语分类词典》,具体分类依据是什么,我不清楚。
收词比较严,但语文学习常常要学临时短语,也就是词语的”语“。
有些关键问题语焉不详。比如书上说到使用了“中小学语文教材语料库”(500万字),但是没有列出词条在这个关键语料库中的数据。另外,稍早的一条消息说这个语料库是183万字,包括主要的4套初中、4套小学语文教材。
厦门大学国家语言资源检测与研究教育教材中心语料库 另有佐证:
第二届教育教材研讨会在福建武夷山召开 这个词表还使用几个别的语料库,但是具体怎么使用的,没有详细说明。
编教材、编教学辅助/测试材料可以用这个词表来做大致检验,但无法看作严格的词语“学习范围”,因为教学往往是以教材/学习材料为基础的,所谓“随文”识字识词也。
发现一点小问题
“音序表”与“义类表”词头逐条对齐检查是否一致,发现
- “音序表”:
- “漂浮”条词性标“形”错误;
- “漂浮”缺一附条,对应另表“捌五Gd(冒失轻浮类)”项下的“漂浮3”条
- “笔记本”少一附条,对应另表“贰八Cb(电脑及配件)”项下的“笔记本2”条
- “引狼入室”标为2级,但在另表中标为3级。
- “生火”标为2级,但在另表中标为1级。
- “义类表”:
- “重振旗鼓”当作“重整旗鼓”;
- “追根溯源”当作“追本溯源”
- “摧毁”重复一次
- “阻击”重复一次
以下是吐槽
如能发布“中小学语文教材语料库”(500万字)的详细数据,如字表、词表、字词聚类、篇目聚类,当更有价值。当然,能开放使用这个语料库,再加上一些研制好同时可调整的算法,那就更好了。目前没有找到这样的语料库。
之所以这么说,是因为要想使用这个资料,必须先在电脑中重建,这既费工,也难免出错,实在是不必要的麻烦。(可能是因为学术成果必须呈现为纸质出版物才能被出资方认可,但这种要求是很糟糕的。)
在学术成果免费服务公众这一方面,台湾做得不错。像我用过的,台湾教育当局的《國小學童常用字詞調查報告書》(2002),《常用語詞調查報告》,以及著名的《異體字字典》《重編國語辭典修訂本》《國語小字典》,都是免费在线共享。