我常用的TextPro用自定义替换表
在汉语正则处理软件里面,佛典宝库网的TextPro是最有特点的,针对汉语字符集做了很多专门的通配符:
而且它是目前唯一支持批量正则替换表的,也就是一次应用一大批替换规则。我平时经常使用这个功能:
现在新建了一个GitHub库:
regexp-replace-lists-for-TextPro
把我常用的TextPro用自定义替换表、批量正则替换表都放在这里。不一定对他人有用。欢迎提意见,尤其是指出错误。
目录#
- 分词注音(含多音字读音).txt
- 单字注音.txt
- 标记多音字读音.txt
- cedict字词注音.txt
- 分词注音后去除汉字和括号-regexp.txt
- 分词注音后字音分组-regexp.txt
- 上标音调转数字-regexp.txt
- 数字音调转上标(注意5调和v韵母)-regexp.txt
- 数字音调转上标-regexp.txt
- 注音后去除汉字和括号-regexp.txt
- 标记词语中的常用多音字.txt
- 一不变调更正(要手动检查语义)-regexp.txt
-
标记易读错的词.txt
-
简转繁预先标记表-regexp.txt
- 通用规范汉字表繁转简(有限).txt
- 通用规范汉字表简查繁异.txt
- 通用规范汉字表简转繁.txt
- 繁体异体简体转正体.txt
- 分词.txt
- 由词表到给单字组词表-regexp.txt
-
把词表转换为字=词表-regexp.txt
-
标记错误词语-regexp.txt
-
笔画顺序标注-regexp.txt
-
笔顺笔画数标注(6字内).txt
-
合并相邻的同字头的行-regexp.txt
-
十以内汉字数字转阿拉伯数字.txt
-
整理课文以备分词-regexp.txt
- 版权页处理-regexp.txt
- 整理盘古分词结果为词表-regexp.txt
TODO#
- 说明与用例
版本问题#
5版有些老旧,有显示错误、奔溃等问题。6版有些改进、增强,但有些内部逻辑错误,比如\c
会匹配个别全角符号:
如果忽略符号则出现更奇怪的现象: