Journey Details

# Attack of Classifiers: Classifier Performance Metrics (Tertiary)

In this journey, we fight back the bad classifiers with the performance metrics of classifier to select only the good classifiers.

## English:

One of the major tasks of AI (Artificial Intelligence) is to build intelligent machines that can recognize patterns and objects by learning from examples. Classification is the task of recognizing an object and classifying them into one of predefined classes. A classifier typically generate a decision boundary something similar to the line shown below:

Figure 1. Hyperplane of a classifier for data sets comprising of two attributes

Â

The line is called hyperplane or decision boundary because we use it to classify everything on one side of the line to be a particular label. In Figure 1, all objects on the right hand side is classified as P (positive) and the rest of them are classified as N (Negative) for instance.

Â

As a data scientist, we need to make sure the hyperplanes are usable: accurate for our purpose. There are many measurements benchmarking the performance of the hyperplanes.

1. Accuracy = # of correct predictions / # of predictions.
2. Error Rate = 1 - Acc
3. Precision (Positive Prediction Rate) = # of correct pos predictions / # of pos predictions
4. Recall = Sensitivity = # of correct pos predictions / # of pos instances
5. Specificity = # of correct neg predictions / # of neg instances
6. TP Rate = Recall
7. FP Rate = 1 - Specificity

## Indonesia:

Salah satu tugas utama AI (Artificial Intelligence) adalah membangun mesin cerdas yang bisa mengenali pola dan objek dengan belajar dari contoh. Klasifikasi adalah tugas mengenali objek dan mengklasifikasikannya menjadi salah satu kelas yang telah ditentukan. Classifier biasanya menghasilkan batasan keputusan yang serupa dengan garis yang ditunjukkan di bawah ini:

Â

Gambar 1. Hyperplane dari classifier untuk set data terdiri dari dua atribut

Â

Garis ini disebut hyperplane atau decision boundary karena kita menggunakannya untuk mengklasifikasikan segala sesuatu di satu sisi garis menjadi label tertentu. Pada Gambar 1, semua benda di sisi kanan diklasifikasikan sebagai P (positif) dan sisanya diklasifikasikan sebagai N (Negatif) misalnya.

Â

Sebagai ilmuwan data, kita perlu memastikan bahwa hyperplanes dapat digunakan: akurat untuk tujuan kita. Ada banyak pengukuran yang membandingkan kinerja hyperplane.

Akurasi = # prediksi yang benar / #prediksi
Error Rate = 1 - Acc
Presisi (nilai Prediksi Positif) = # prediksi pos yang benar / # prediksi pos
Recall = Sensitivitas = # prediksi pos yang benar / # contoh pos
Spesifisitas = # prediksi neg yang benar / # contoh neg
TP Rate = Recall
FP Rate = 1 - Spesifisitas