Skip to content

Latest commit

 

History

History
108 lines (56 loc) · 3.92 KB

File metadata and controls

108 lines (56 loc) · 3.92 KB

应用高斯分布的异常检测 Anomaly Detection Using Gaussian Distribution

Jupyter Demos

▶️ Demo | 异常检测 Anomaly Detection - 发现服务器操作参数中的异常,例如latencythreshold

高斯(正态)分布 Gaussian (Normal) Distribution

正态(或者高斯)分布是一个常见的通用连续概率分布。 正态分布在统计学中很重要,并且通常在自然科学和社会科学中用于表示其分布未知的实值随机变量。具有高斯分布的随机变量被称为正态分布并且被称为正态偏差。

如下介绍�:

x-in-R

如果 x 是 正态分布,它的分布如下图所示:

Gaussian Distribution

mu - 代表均值,

sigma-2 - 方差.

x-normal - "~" 表示 "x 的满足��的分布是 ..."

那么高斯分布(某些_x_可能是具有特定均值和方差的分布的一部分的概率)由下式给出:

Gaussian Distribution

估计高斯分布的参数 Estimating Parameters for a Gaussian

我们可以使用以下公式来为第 ith 个特征估计高斯参数(均值和方差)

mu-i

sigma-i

i

m - number of training examples.

n - number of features.

密度估计 Density Estimation

我们有以下的训练集合:

Training Set

x-in-R

我们假设训练集的每个特征都是符合正态分布的:

x-1

x-2

x-n

那么:

p-x

p-x-2

异常检测算法 Anomaly Detection Algorithm

  1. 从可能的异常例子(Training Set)中选择出特征x-i .
  2. 使用以下公式mu-i

sigma-i�拟合出参数 params

  1. 给定新的样本 x, 计算出 p(x):

p-x-2

如果 anomaly 则异常

epsilon - 概率阈值.

算法评估 Algorithm Evaluation

设计出的算法将通过 F1 score 进行评估。

F1 score 是准确率和召回率的调和均值, 最理想的情况为 1 (最佳的准确率和召回率),最坏的情况为 0

F1 Score

f1

其中:

precision

recall

tp - 真阳性(true positives)的样本数量。

fp - 假阳性(false positives)的样本数量。

fn - 假阴性(false negatives)的样本数量。

参考文献 References