基于经过清洗和切分的2019年中文wiki语料库wiki2019zh.zip,使用hanlp中的COARSE_ELECTRA_SMALL_ZH模型进行了分词。
分词结果采用4-tag BMES标注法进行了序列标注,格式如下:
假设被分词的语料是:你好Tom。我喜欢吃羊肉串。
,标注结果为:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
使用中可能需要注意嵌入(embeddings)和标点符号的处理方式,以及语句和语料结束的标志SENTENCE END
和TEXT END
。
分词使用的脚本是process_wiki_data.py。
运行此脚本需要花费大量的时间:
- CPU型号:Intel Xeon(Cascade Lake) Platinum 8269CY
- CPU主频:2.5Ghz/3.2Ghz
- 花费时间:7天11小时2分钟