基于词频的文件相似度

描述

实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为了简化问题，这里不考虑中文，只考虑长度不小于3、不超过10的英文单词。

输入格式说明：输入首先给出正整数N（N<=100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#，表示文件结束。在N个文件内容结束之后，给出查询总数M(M <= 10000)，随后M行，每行给出一对文件编号，期间以空格分隔。这里假设文件按给出的顺序从1到N编号。
输出格式说明：针对每一条查询，在一行中输出两个文件的相似度，即两个文件的公共词汇量占两文件总词汇量的百分比，精确到小数点后一位。注意这里一个“单词”只包括仅由英文字母组成的、长度不小于3且不超过10的英文单词。长度超过10只考虑前10个英文字母。单词间以任何非英文字母隔开。另外，大小写不同的单词被认为是相同的单词。

示例

输入用例1：

3
Aaa Bbb Ccc
#
Bbb Ccc Ddd
#
Aaa2 ccc Eee
is at Ddd@Fff
#
2
1 2
1 3

输出用例1：

50.0%
33.3%

输入用例2：

2
This is a test for repeated repeated words.
#
All repeated words shall be counted only once.  A longlongword is the same as this longlongwo.
#
1
1 2

输出用例2：

23.1%

链接列表

README.md
Source Code

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

problem.md

problem.md

基于词频的文件相似度

描述

示例

链接列表

Files

problem.md

Latest commit

History

problem.md

File metadata and controls

基于词频的文件相似度

描述

示例

链接列表