Skip to content

hyosmos/HansInfo

Repository files navigation

说明文档

介绍:基于漢典网站内容,爬取汉字信息。可获取包括:拼音,笔画,结构,类型,字表,反应时,频率% 等汉字信息。


变量说明

拼音py,笔画bh,结构jg,类型lx,字表zb,反应时rt,频率%zp

Excel文件说明

CorpusCharacterlist提供汉字字频统计

DataBase提供汉字辨认平均反应时

HanList包含两个表格分别为list1-2500个常用字和list2-1000个次常用字,从漢典站内抓取

hans文件内,以竖排第一列置入需要查询的字列并保存,程序会读取并重新写入字列中每个字的相关信息。每次使用查询前请新建sheet并删除原有的newhans表格。

已知问题

因为用的正则表达式匹配对应内容,而关于字的类型(造字法),网页并没有特定的放置,所以匹配字段会出现丢失或匹配错误,有的字甚至没有标注是什么类型。因为比较懒暂时没有想办法解决。

About

汉字信息爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages