Skip to content

分词、词表、核心词典、停用词、敏感词、问答、问答数据、知识图谱 等

Notifications You must be signed in to change notification settings

l06066hb/AllDataPackages

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AllDataPackages

分词、词表、核心词典、停用词、敏感词等

简介

本核心词表是由多个来源整理,不限于百科,学术论文期刊,各类网站等,此词表以中图分类为基础分为7个大类,75个小类,约有1300万左右记录。适用于词典分词,机器学分词、词性标注等常见文本挖掘。

词表介绍

一级分类名称 词表数量 备注
学科 329w 19个子类
行业技术 480w 24个子类
艺术 46w 3个子类
科学文化教育 246w 13个子类
互联网 57w 5个子类
休闲娱乐 131w 8个子类
其他 31w 3个子类

学科

医学(98.5w)、哲学(15w)、美学(8k)、人口学(3.1w)、伦理学(2.3w)、天文学(15.2w)、心理学(4.7w)、思维学(2.4k)、民族学(2.2w)、社会学(18.1w)、管理学(7w)、统计学(2.6w)、逻辑性(4.1k)、劳动学(1.3w)、社会科学(50.7w)、自然科学(35.1w)、人文科学(65.8w)、马列毛邓(1.7w)、宗教(4.4w)

行业技术

农业(37.9w)、冶金(6w)、化工(26w)、建筑(35.6w)、生物(7.8w)、矿业(11.3w)、纺织(5.3w)、经济(68.6w)、金属(16.2w)、食品(11.8w)、原子能(3.4w)、机器人(2w)、交通(18.6w)、工业技术(108.7w)、机器仪表(13.5w)、水利工程(11.1w)、环境保护(14.7w)、电信技术(27.3w)、电工技术(20.8w)、能源动力(6.4w)、航空航天(5.4w)、遥感技术(8.7k)、石油天然气(10.1w)、自动化技术(10.3w)

艺术

艺术(27w)、工艺品(9.4w)、音乐舞蹈戏曲(4k)

科学文化教育

军事(6.9w)、教育(68.5w)、文化(1.5w)、文学(25.8w)、科学(7.4w)、数理化(18.6w)、世界文化(5.8w)、历史人物(7.7w)、历史地理(23.2w)、政治法律(36w)、知识(29w)、语言文字(11.4w)

互联网

计算机技术(35w)、计算机软件(10w)、计算机网络(7.8w)、微型计算机(2.2w)、人工智能(2.1w)

休闲娱乐

旅行(1.9w)、摄影(4.9w)、烹饪食谱(1.5w)、体育(16.5w)、小说(6.7k)、美容美发(1.8w)、游戏(51w)、娱乐(52.7w)

其他

汽车(1.1k)、房产(1.5k)、城市(31w)

词表格式说明

词表每一行按空格分成三列,分别为词汇、数量、词性。 词表排序:首字母排序、相同字母按长度排序,方面后续整理。 如下表格:

词汇 数量 词性
暗语 138 n
暗示性 10 nz
暗示法 35 nz
暗渡陈仓 10 i
暗杀 44 vn
暗杀活动 18 nz
暗杀行动 8 nz

更新

该词表定期整理更新,包括增加分类,增加词汇数量,人工排除一些不合理的分类词汇等。

获取

由于该词表的挖掘与整理需要大量人力、精力且非常耗时,所以此词表暂不提供下载地址,还请谅解,如有需要的可以联系作者QQ:1773498686。

免费词表

300万词表下载 密码:m6t0

千万词表下载 密码:gtl4

优缺点

该词表不同于网络上的几万,十几万,百万的词表,网络上的词表杂乱很难有效的整理和分类,缺失专业词汇、行业词汇比较多,对于基于词典的分词法,可能分不出有效的词汇,影响搜索召回等。当然该词表也在不断的完善整理中,有些分类会包含一些不合理的词汇。

About

分词、词表、核心词典、停用词、敏感词、问答、问答数据、知识图谱 等

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published