结合ES的DGA落地方案

数据源

ES抽取

判断思路：

计算域名中每个字母出现的随机性熵值，熵值越高随机性越高
判断域名中的英文元音字母所占的比重,判断域名可读性
将域名拆分后根据n-gram排名，排名越低越可疑
满足以上三个条件筛选出来的域名，判断同一个IP一天内发起长度相同且格式相同的域名请求次数超过50次
满足以上条件且同一个IP请求的不相同的域名个数超过5种
判断域名是否为汉语拼音或拼音首字母组成，是则丢弃，形成最终结果
将域名进行whois查询，统计查询比例，从而判断检测准确率

更新记录

8月2号更新：新增whois查询模块 8月3号更新：基于贪婪算法过滤汉语拼音或拼音首字母组成的域名

待更新

英文单词组成的DGA域名识别

结果

输出域名、源IP、请求的次数