Setelah AI dilatih (training), sekarang waktunya kita uji seberapa pintar dia.
Jangan langsung percaya sama AI yang baru selesai belajar.
Kita harus tes: apakah dia benar-benar paham, atau cuma hafal datanya saja?
Itulah yang disebut evaluasi model AI.
Tujuan evaluasi:
- Mengetahui seberapa akurat AI saat diberi data baru
- Menilai apakah AI bisa berpikir umum, bukan cuma menghafal data latihan
- Mencegah AI dari overfitting (belajar terlalu bagus di data latihan, tapi jelek di data baru)
Bagaimana cara mengevaluasi AI?
Biasanya, data dibagi 3 bagian:
Jenis Data | Fungsinya |
---|---|
Training data | untuk melatih AI |
Validation data | untuk menguji saat latihan (tahap tuning) |
Test data | untuk evaluasi akhir (data yang benar-benar belum pernah dilihat AI) |
Metode Evaluasi Umum:
- Akurasi (Accuracy)
→ Berapa persen jawaban AI yang benar dari semua data - Precision & Recall
- Precision = dari semua yang diprediksi “positif”, berapa yang benar
- Recall = dari semua yang benar-benar “positif”, berapa yang terdeteksi oleh AI
Contoh kasus: deteksi kanker, face recognition
- Confusion Matrix
→ Tabel yang menunjukkan berapa banyak AI salah dan benar
→ Misalnya: Prediksi kucing tapi aslinya anjing → itu salah klasifikasi - F1 Score
→ Gabungan dari precision dan recall, digunakan saat data tidak seimbang
Contoh sederhana:
AI kamu diminta mengenali 100 gambar buah:
- 90 benar
- 10 salah
Accuracy = 90% → kelihatan bagus, tapi…
Kalau semua buah yang benar hanya jeruk, dan dia gagal kenali apel atau pisang, maka kita harus cek lebih dalam:
- Apa dia cuma belajar “jeruk doang”?
- Apa dia susah bedain apel vs tomat?
Tantangan:
- Evaluasi harus dilakukan dengan data yang belum pernah dilihat AI sebelumnya
- Evaluasi juga bisa mengungkap apakah AI terlalu bias (misalnya cuma bagus di satu jenis data)
Kesimpulan:
Evaluasi AI = Ujian akhir
Sama kayak kita sekolah, setelah belajar ya harus dites dong, supaya tahu sudah paham atau belum.
Leave a Reply