Skip to content

Latest commit

 

History

History
53 lines (43 loc) · 1.59 KB

problem.md

File metadata and controls

53 lines (43 loc) · 1.59 KB

基于词频的文件相似度

描述

实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。为了简化问题,这里不考虑中文,只考虑长度不小于3、不超过10的英文单词。

  1. 输入格式说明:输入首先给出正整数N(N<=100),为文件总数。随后按以下格式给出每个文件的内容:首先给出文件正文,最后在一行中只给出一个字符#,表示文件结束。在N个文件内容结束之后,给出查询总数M(M <= 10000),随后M行,每行给出一对文件编号,期间以空格分隔。这里假设文件按给出的顺序从1到N编号。
  2. 输出格式说明:针对每一条查询,在一行中输出两个文件的相似度,即两个文件的公共词汇量占两文件总词汇量的百分比,精确到小数点后一位。注意这里一个“单词”只包括仅由英文字母组成的、长度不小于3且不超过10的英文单词。长度超过10只考虑前10个英文字母。单词间以任何非英文字母隔开。另外,大小写不同的单词被认为是相同的单词

示例

输入用例1:

3
Aaa Bbb Ccc
#
Bbb Ccc Ddd
#
Aaa2 ccc Eee
is at Ddd@Fff
#
2
1 2
1 3

输出用例1:

50.0%
33.3%

输入用例2:

2
This is a test for repeated repeated words.
#
All repeated words shall be counted only once.  A longlongword is the same as this longlongwo.
#
1
1 2

输出用例2:

23.1%

链接列表