跳转至

儿童识字用汉语文本的难度算法

儿童识字用汉语文本的难度算法。

详见代码仓库

思路#

以儿童阅读入门兼识字为假设情境,主要估测文本的识读难度,而不是理解难度

因而主要依赖字频表,以及对识字过程的经验与先验假设(实测-调参)。详见代码注释。

输出每篇文本的5个值:字数;字种;文难度;句难度;分句难度;单字难度。如下,两首诗及其所得数值:

文本 字数 字种 文难度 句难度 分句难度 单字难度
解落三秋叶,能开二月花。过江千尺浪,入竹万竿斜。 20 20 2273.82 1136.91 568.46 113.69
灞原风雨定,晚见雁行频。落叶他乡树,寒灯独夜人。 20 20 2290.09 1145.05 572.52 114.50

你可以使用这些值,根据实际需要构建排序算法。

实测效果还不错,目前可用于辅助文本难易排序。(实际上没有做多少实测-调参工作,也就是说,预计不会有严重的过拟合问题。)

参考#

评论