csc_tools

AutoDL镜像

项目介绍

csc_tools是一个中文拼写纠错（Chinese Spell Checking / Chinese Spell Correction, CSC）工具箱，帮助人们利用已有模型方便的进行中文拼写纠错。

中文拼写纠错仅针对错字进行修改，不处理多字和漏字的情况。

页面展示

目前，该工具支持如下功能：

简单文本校对：对不超过500字的中文文本进行纠错。
长文本校对：对不限文本长度的中文文本进行纠错。
文档校对：对文档进行校对。支持PDF和DOCX，其中PDF按页进行划分，DOCX按章节进行划分（以文章中的二级标题为一个单位）。

效果图如下：

CSC模型

目前支持的模型如下：

ChineseBertForCSC(SCOPE)（Hugging Face, Github, 论文）：该模型源于对SCOPE论文的复现，几乎可以达到原论文的效果。
macbert4csc（Hugging Face, Github ）: 该模型在Github上虽然关注度较高，但效果相对要差一点。

项目部署

1.下载项目并安装依赖：

git clone https://github.com/iioSnail/csc_tools.git
cd csc_tools
pip install -r requirements.txt

2.运行streamlit_demo.py

streamlit run streamlit_demo.py

运行后会从huggingface下载模型，国内会由于网络问题加载失败，可手动下载后放到项目目录下。下载后的目录如下：

├── csc_tools
    ├── iioSnail  # 模型文件
    │   └── ChineseBERT-for-csc
    ├── shibing624  # 模型文件
    │   └── macbert4csc-base-chinese
    ├── images
    ├── models
    ├── st_pages
    ├── tmp
    └── utils

如果你在部署过程中遇到任何问题，可以提issue。首次部署推荐选用 Google Colab 或 AutoDL 进行部署

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

csc_tools

项目介绍

页面展示

CSC模型

项目部署

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
images		images
models		models
st_pages		st_pages
utils		utils
README.md		README.md
cli_demo.py		cli_demo.py
colab.ipynb		colab.ipynb
requirements.txt		requirements.txt
streamlit_demo.py		streamlit_demo.py

socialwork123/csc_tools

Folders and files

Latest commit

History

Repository files navigation

csc_tools

项目介绍

页面展示

CSC模型

项目部署

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages