Text-Mining,包括使用TF-IDF进行关键词提取;使用TextRank4ZH进行关键词和摘要提取,使用BK-TextRank进行关键词和摘要提取。
Visualization,包括使用WordCloud构建词云,进行关键词中心性相似性分析并绘制网络图,进行LDA主题建模并可视化。
为了获得准确的分词结果,一个良好的分词模型是必须的,我们整理了地下工程语料,结合通用语料(PKU人民日报)训练了BERT-BiLSTM-CRF分词模型,实际上还训练了BERT-CRF和BiLSTM-CRF模型,但在BERT-BiLSTM-CRF中取得了最好的效果。分词模型的构建参考WordSeg,详情可自行研究,在此表示感谢。
我们的目的是处理各种文本报告,可能涉及到doc/docx、可编辑PDF、扫描的图像PDF以及图片等常见的格式,在网页端可以上传各种格式而不必前处理。
我们将提供地下工程领域的语料数据、词典数据以及训练好的BERT-BiLSTM-CRF分词模型,可重新训练或调用predict.py进行分词。工程数据涉及保密等问题,不单独提供。数据整理中,后期会提供网盘链接。
目前项目还不是很完善,我们也在继续更新,欢迎 Star 和 issue。