Skip to content

华夏文明给我们留下了浩如烟海的文献典籍,古籍的数字化可以让大众更方便更大范围的享受这一文化大餐,弥补不能接触原典的遗憾。古籍数字化中汉字分割是关键环节,诚邀您共同参与。古籍汉字切分算法研究:将古籍扫描图片上的汉字切分出来的算法研究。

License

Notifications You must be signed in to change notification settings

CoinLQ/GuJi_Repository

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

古籍汉字切分算法研究

将古籍扫描图片上的汉字切分出来的算法研究

具体分为

  • 已知对应文字稿的切分
  • 未知对应文字稿的切分
  • 图片和文字稿已知,但图片和文字稿的对应关系未知三种情况。

测试数据集

有两个测试数据集

  • guji_examples 《高丽大藏经》第1册 100页 图文对应情况较好。
  • guji_B14_P218-P229 《高丽大藏经》 第14册 11页

About

华夏文明给我们留下了浩如烟海的文献典籍,古籍的数字化可以让大众更方便更大范围的享受这一文化大餐,弥补不能接触原典的遗憾。古籍数字化中汉字分割是关键环节,诚邀您共同参与。古籍汉字切分算法研究:将古籍扫描图片上的汉字切分出来的算法研究。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published