Skip to content

Latest commit

 

History

History
61 lines (40 loc) · 3.44 KB

README.md

File metadata and controls

61 lines (40 loc) · 3.44 KB

基于大连理工大学机构知识库的主题词推荐

研究目的

面向大连理工大学学者,基于大连理工大学机构知识库,推荐潜在主题词,优化科研方向,促进跨学部、学科、领域科研合作。

数据集介绍及获取方式

  • 大连理工大学机构知识库:大连理工大学机构知识库作为支撑大连理工大学学术研究的基础设施,以知识管理与学术交流为目标,收集、组织、管理、保存、传播大连理工大学教职工的学术研究成果,实现知识传播与共享。机构知识库中拥有期刊论文、会议论文、学位论文、专利、著作、报纸、标准等多种类型学术成果。
  • 爬虫:主要采用requsts库和etree库相结合的方法,通过post方法获取XML,etree库构建XML树,xpath方法提取内容,获取学者关键词。

推荐方法介绍

  • 基于协同过滤:主要采用itemcf经典推荐模型,构建学者-主题向量以及主题共现相似度矩阵,通过MapReduce计算推荐主题词TOP10。

  • 基于表示学习的链路预测:主要采用网络表示学习经典模型node2vec,训练学者及主题embedding,通过Inner-Product计算学者-主题链接强度,从而达到推荐主题词的目的。

  • 基于表示学习的协同过滤:采用网络表示学习经典模型node2vec对主题共现相似度矩阵进行更新,更精准捕捉主题词内在联系,最终通过MapReduce计算最终的推荐主题词主题词TOP20及去除已有主题词TOPN。

  • 基于图注意力网络:在方法2和3的基础上,解决网络节点异质性的问题。数据集加入其他节点,如期刊、会议、学科等实体时,可以更有效地训练embedding,达到在异构网络条件下进行多种学术推荐的目的。

数据输入

  • user_item_score.txt:来源于AcademicRecommendation_Spider

相关代码

数据输入

  • 1.user_item_score.txt:来源于AcademicRecommendation_Spider
  • 2.调用MapReduce

数据输出

  • output/MR_output:基于AcademicRecommendation_MR

数据输入

  • 1.user_item_score.txt:来源于AcademicRecommendation_Spider
  • 2.调用node2vec:不包含node2vec输出embedding

数据输出

  • output/GE_output:基于Inner Product

数据输入

  • 1.user_item_score.txt:来源于AcademicRecommendation_Spider
  • 2.调用node2vec:不包含node2vec输出embedding
  • 3.调用MapReduce

数据输出(调用AcademicRecommendation_MR时需注意进行对应修改)

  • output/MRGE_output:基于调整后的AcademicRecommendation_MR

待完成

作者信息