该项目中介绍了jieba,hanlp,snownlp,nlpir,pkuseg,thulac几个常用分词工具,并结合其分词性能与时间效率做了比较
分词工具安装
实验
1、jieba
pip3 install jieba
2、hanlp
pip3 install hanlp
3、pkuseg
pip3 install pkuseg
4、thulac
pip3 install thulac
5、snownlp
pip3 install snownlp
6、nlpir
pip3 install pynlpir
主要和本项目相关的目录,可以直接下载使用上边的数据集
data
-icwb2
-testing
-gold
-segment(该目录由程序生成)
该项目共两个参数, 第一个参数为分词工具,其范围[hanlp,jieba,snownlp,nlpir,pkuseg,thulac] 第二个参数为分词的数据集[cityu, as, msr, pku]
python segment_score.py jieba as