KNN’in hiperparametreleri

Python ile Anomali Tespiti

Bekhruz (Bex) Tuychiev

Kaggle Master, Data Science Content Creator

evaluate_outlier_classifier’ı değiştirin

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers
Python ile Anomali Tespiti

evaluate_regressor’ı değiştirme

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(
      X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)
Python ile Anomali Tespiti

Komşu sayısını ayarlama

n_neighbors = [5, 10, 15, 20]
scores = dict()


for k in n_neighbors: # Bir KNN başlatın knn = KNN(n_neighbors=k) # KNN ile inlier’ları alın inliers = evaluate_outlier_classifier(knn, males_transformed, .55) # RMSE’yi hesaplayıp kaydedin scores[k] = evaluate_regressor(inliers)
Python ile Anomali Tespiti

Sonucu inceleme

print(scores)
{5: 19.463, 10: 17.965, 15: 18.817, 20: 20.597}
Python ile Anomali Tespiti

Uzaklık metrikleri

  • 40’tan fazla metrik desteklenir
knn = KNN(metric='euclidean')

8 örnekli bir veri kümesi grafiği; A aykırı değer, A ile en yakın 4 komşusu arasındaki oklar gösterilmiş.

Python ile Anomali Tespiti

Manhattan uzaklığı

A = np.array([9, 1, 6, ...])
B = np.array([25, 44, 85, ...])


diffs = np.abs(B - A)
manhattan_dist_AB = np.sum(diffs) manhattan_dist_AB
573

Manhattan uzaklığını hesaplama formülü ve süreci görselleştiren bir görsel.

Python ile Anomali Tespiti

Manhattan uzaklığı

  • Yüksek boyutlu verilerde iyi çalışır
  • Öklid’e göre daha büyük değerler döndürür
  • Kategorik özelliklerde daha uygundur

Manhattan uzaklığını hesaplama formülü ve süreci görselleştiren bir görsel.

Python ile Anomali Tespiti

Minkowski uzaklığı

# Öklid uzaklığı
knn = KNN(metric="minkowski", p=2)
# Manhattan uzaklığı
knn = KNN(metric="minkowski", p=1)

Minkowski uzaklığını hesaplama formülü ve süreci görselleştiren bir görsel.

Python ile Anomali Tespiti

Uzaklık toplamlaştırma

knn_largest = KNN(n_neighbors=10, method="largest")


knn_mean = KNN(n_neighbors=10, method="mean") knn_median = KNN(n_neighbors=10, method="median")
Python ile Anomali Tespiti

Uzaklık ve yöntemi ayarlama

ps = [1, 2, 3, 4]
methods = ["largest", "mean", "median"]
scores = dict()


for p, method in product(ps, methods): # Bir KNN örneği başlatın knn = KNN(n_neighbors=10, method=method, p=p, n_jobs=-1) # Geçerli KNN ile inlier’ları bulun inliers = evaluate_outlier_classifier(knn, males_transformed, .55) # RMSE’yi hesaplayıp scores’a kaydedin scores[(p, method)] = evaluate_regressor(inliers)
Python ile Anomali Tespiti

Sonucu inceleme

print(scores)
{(1, 'largest'): 23.188,
 (1, 'mean'): 23.188,
 (1, 'median'): 23.188,
 (2, 'largest'): 17.965,
 (2, 'mean'): 19.463,
 (2, 'median'): 19.463,
 (3, 'largest'): 17.965,
 (3, 'mean'): 19.463,
 (3, 'median'): 19.463, ...
}
Python ile Anomali Tespiti

Hadi pratik yapalım!

Python ile Anomali Tespiti

Preparing Video For Download...