收罗来的成语整理了半小时,不到500条成语词条,这样的进度很缓慢,缓慢的原因在不停地查重上,重复多了,效率就没了。看来人工处理这个的确耗费时间,放弃这个方法。
另外一个方法是,扫描词典目录,再进行文字识别,识别后再处理。暂时不考虑成语解释说明的问题,可迅速先将每个词条整理出来,还不用担心错别字,再耐心等三五天,词典就会到,双十一的余温未减,物流缓慢。
等待之余,设计了一个主表和若干副表,用于完成这次的“成语接龙”任务。
主表的内容是成语词条和它本身特性的内容,副表包含成语的解释和说明,若后续还有一些要扩展的内容,也可以使用类似的副表来完成。
主表的字段如下:
序号,上一级序号,成语词条,成语长度,首字声母,首字,尾字,尾字声母,进表时间
SN:序号。类型,唯一序号,主键,不允许重复,不为空。
TSN:上一级序号。类型,整形,允许重复,不为空。
LName:成语词条。类型,字符,可重复,可为空,长度40。
LNum:成语长度,类型,整型,默认值0。
LFC:首字声母,类型,字符,长度2,可空。
LF:首字,类型,字符,长度2,可空。
LEC:尾字声母,类型,字符,长度2,可空。
LE:尾字,类型,字符,长度2,可空。
pTime:进表时间,类型,日期时间。
说明:作为主表,序号和上一级序号是相同的,可作为是否可用的标志,各个字段的允许长度暂时是这样规定,未来视情况再做修整合改变。
副表字段如下:
序号,上级序号,成语解释,成语来源出处,类别,进表时间
SN:序号。类型,唯一序号,主键,不允许重复,不为空。
TSN:上一级序号。类型,整形,允许重复,不为空。
LS:成语解释,类型,字符,长度100,可为空,可重复。
LT:成语来源出处,类型,字符,长度100,可为空,可重复。
Ltype:类别,整形,允许重复,默认值为0。
pTime:进表时间,类型,日期时间。
说明:作为副表,序号和上一级序号是不同的,TSN对应主表的SN,所以它是可重复的。
当Ltype为0时,LS字段代表的是“成语解释”,LT字段代表的是“成语出处”,若后续想到另一类别,可将Ltype为1,再想出别的类别,Ltype为2,以此类推。用这样的方法可完成扩充的企图。
考虑到主表中有成语首字的声母,额外还需要再建一个表,这个表的内容是单字,和其对应的声母,表字段规划如下:
序号,单字,声母,排序
SN:序号。类型,唯一序号,主键,不允许重复,不为空。
Words:单字,类型,字符,长度2,允许重复,不为空。
Ws:声母,类型,字符,长度2,允许重复,可为空。
Wl:排序,类型,整形,默认值0。
说明:
这个表需要将每个字对应的声母匹配上,汉字按使用程度分一级字库二级字库,也就是说,这个表至少要包含一级字库里所有的汉字,没记错的话,2312个。简体字库GB2312。
整理这个表也要耗费一些时间,争取在词典到来之前完成它,唯一要注意的是多音字的问题,比如“长”这个字,“长春市”这里的“长”的声母是“c”,“长大了”这里的“长”的声母是“z”,这时候,“z”后面的排序里面要写上1,后续还要对成语读音进行校正。
好啦,今天先写这三个表的内容吧,先完成汉字与声母的对应表,加油,加油吧!
如若转载,请注明出处:https://yjdsqm.com/4491.html