古籍汉字切分算法研究 将古籍扫描图片上的汉字切分出来的算法研究 具体分为 已知对应文字稿的切分 未知对应文字稿的切分 图片和文字稿已知,但图片和文字稿的对应关系未知三种情况。 测试数据集 有两个测试数据集 guji_examples 《高丽大藏经》第1册 100页 图文对应情况较好。 guji_B14_P218-P229 《高丽大藏经》 第14册 11页