Skip to content

中文拼写纠错(Chinese Spell Checking / Chinese Spell Correction, CSC)工具箱

Notifications You must be signed in to change notification settings

socialwork123/csc_tools

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

csc_tools

Open In Colab

AutoDL镜像

项目介绍

csc_tools是一个中文拼写纠错(Chinese Spell Checking / Chinese Spell Correction, CSC)工具箱,帮助人们利用已有模型方便的进行中文拼写纠错。

中文拼写纠错仅针对错字进行修改,不处理多字和漏字的情况。

页面展示

目前,该工具支持如下功能:

  • 简单文本校对:对不超过500字的中文文本进行纠错。
  • 长文本校对:对不限文本长度的中文文本进行纠错。
  • 文档校对:对文档进行校对。支持PDF和DOCX,其中PDF按页进行划分,DOCX按章节进行划分(以文章中的二级标题为一个单位)。

效果图如下:

简单文本校对

长文本校对

文档校对

CSC模型

目前支持的模型如下:

  • ChineseBertForCSC(SCOPE)(Hugging Face, Github, 论文 ):该模型源于对SCOPE论文的复现,几乎可以达到原论文的效果。
  • macbert4csc(Hugging Face, Github ): 该模型在Github上虽然关注度较高,但效果相对要差一点。

项目部署

1.下载项目并安装依赖:

git clone https://github.com/iioSnail/csc_tools.git
cd csc_tools
pip install -r requirements.txt

2.运行streamlit_demo.py

streamlit run streamlit_demo.py

运行后会从huggingface下载模型,国内会由于网络问题加载失败,可手动下载后放到项目目录下。下载后的目录如下:

├── csc_tools
    ├── iioSnail  # 模型文件
    │   └── ChineseBERT-for-csc
    ├── shibing624  # 模型文件
    │   └── macbert4csc-base-chinese
    ├── images
    ├── models
    ├── st_pages
    ├── tmp
    └── utils

如果你在部署过程中遇到任何问题,可以提issue。首次部署推荐选用 Google ColabAutoDL 进行部署

About

中文拼写纠错(Chinese Spell Checking / Chinese Spell Correction, CSC)工具箱

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 56.2%
  • Jupyter Notebook 43.8%