进行了分词标注的2019中文维基语料库

下载语料库

基于经过清洗和切分的2019年中文wiki语料库wiki2019zh.zip，使用hanlp中的COARSE_ELECTRA_SMALL_ZH模型进行了分词。

分词结果采用4-tag BMES标注法进行了序列标注，格式如下：

假设被分词的语料是：你好Tom。我喜欢吃羊肉串。，标注结果为：

你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END

使用中可能需要注意嵌入（embeddings）和标点符号的处理方式，以及语句和语料结束的标志SENTENCE END和TEXT END。

分词使用的脚本是process_wiki_data.py。

运行此脚本需要花费大量的时间：

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
process_wiki_data.py		process_wiki_data.py