Kelebihan Pohon Keputusan
} Daerah pengambilan keputusan lebih simpel dan spesifik.
} Eliminasi perhitungan-perhitungan tidak diperlukan, karena
ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan
kriteria atau kelas tertentu.
} Fleksibel untuk memilih fitur dari internal node yang berbeda.
Sehingga dapat meningkatkan kualitas keputusan yang dihasilkan.
} Dengan menggunakan pohon keputusan, penguji tidak perlu
melakukan estimasi pada distribusi dimensi tinggi ataupun parameter tertentu
dari distribusi kelas tersebut..
Kekurangan Pohon Keputusan
} Kesulitan dalam mendesain pohon keputusan yang optimal.
} Hasil kualitas keputusan yang didapat sangat tergantung pada
bagaimana pohon tersebut didesain. Sehingga jika pohon keputusan yang dibuat
kurang optimal, maka akan berpengaruh pada kualitas dari keputusan yang
didapat.
} Terjadi overlap terutama ketika kelas-kelas dan criteria yang
digunakan jumlahnya sangat banyak sehingga dapat menyebabkan meningkatnya waktu
pengambilan keputusan dan jumlah memori yang diperlukan.
} Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah
pohon keputusan yang besar.
Keterangan
} Operator Decision Tree berguna untuk memprediksikan keputusan
dari atribut-aribut yang dimasukkan ke dalam operator retrieve. Dengan mengubah
tabel (atribut) yang dimasukkan menjadi sebuah pohon keputusan.
} training set (tra), merupakan output dari operator
retrieve. Port ini menghasilkan ExampleSet yang dapat diperoses menjadi
decision tree.
} model (mod) mengonversi atribut yang dimasukkan
menjadi model keputusan dalam bentuk decision tree.
} example set (exa) menghasilkan output tanpa mengubah
inputan yang masuk melalui port ini. Digunakan untuk melihat ExampleSet dalam
Hasil Workspace.
Keterangan
} Criterion, berguna memilih kriteria untuk menetapkan atribut
sebagai akar dari decision tree. kriteria yang dapat dipilih, antara lain
- Gain ratio merupakan varian dari information_gain. Metode ini menghasilkan information gain untuk setiap atribut yang memberikan nilai atribut yang seragam.
- Information_gain, dengan metode ini, semua entropi dihitung. Kemudian atribut dengan entropi minimum yang dipilih untuk dilakukan perpecahan pohon (split). Metode ini memiliki bias dalam memilih atribut dengan sejumlah besar nilai.
- Gini_index merupakan ukuran ketidakaslian dari suatu ExampleSet. Metode ini memisahkan pada atribut yang dipilih memberikan penurunan indeks rata-rata yang dihasilkan subset.
- Accuracy, metode ini memimilih beberapa atribut untuk memecah pohon (split) yang memaksimalkan akurasi dari keseluruhan pohon.
} Minimal size of split, Ukuran untuk membuat simpul-simpul pada
decision tree. Ukuran simpul adalah jumlah contoh dalam subset nya.
} Minimal leaf size, Pohon yang dihasilkan memiliki himpunan
bagian simpul daun sebanyak minimal leaf size.
} Minimal gain merupakan nilai gain minimal yang ditentukan untuk
menghasilkan simpul pohon keputusan.
Nilai yang terlalu tinggi dapat mencegah pemecahan dan menghasilkan
pohon dengan simpul tunggal.
} Maximal depth, Parameter ini digunakan untuk membatasi ukuran
Putusan Pohon. Jika nilainya diatur ke
'-1', parameter kedalaman maksimal menempatkan tidak terikat pada kedalaman
pohon.
} Confidence, Parameter ini menentukan tingkat kepercayaan yang
digunakan untuk pesimis kesalahan perhitungan pemangkasan.
} Number of prepruning alternatives. Parameter ini menyesuaikan
jumlah node alternatif untuk membelah ketika split dicegah dengan prepruning
pada simpul tertentu.
Keterangan pada X-Validation
} training example set (tra) sebagai port input
memperkirakan ExampleSet untuk melatih sebuah model. ExampleSet yang sama akan
digunakan selama subproses pengujian untuk menguji model.
} model (mod), model yang dibangun ExampleSet disampaikan
melalui port ini.
} training example set (tra), Port ini biasa digunakan
untuk melihat ExampleSet dalam Workspace Result.
} averagable (ave), mengembalikan
Vector Kinerja. Hal ini dihasilkan
dengan menerapkan model dan mengukur kinerjanya. Harap dicatat bahwa kinerja statistik
dihitung dengan skema estimasi dari kinerja yang akan dicapai dengan model yang
dibangun.
Keterangan
} average performances only (boolean), parameter ahli yang
menunjukkan jika vector kinerja harus dirata-ratakan.
} leave one out (boolean), melibatkan penggunaan satu
contoh dari ExampleSet asli sebagai data, dan contoh yang tersisa sebagai data
pelatihan. Jika diatur dengan benar,
parameter number of validations dapat diabaikan.
} number of validations (integer), menentukan jumlah subset
ExampleSet yang harus dibagi.
} use local random seed (boolean), Parameter ini
menunjukkan jika local random seed harus digunakan untuk mengacak contoh
subset.
} sampling type (selection)
1. linear_sampling, membagi
ExampleSet ke partisi tanpa mengubah urutan contoh, yaitu subset dengan contoh
berturut-turut diciptakan.
2. shuffled_sampling, Shuffled
Sampling membangun subset acak ExampleSet. Contoh dipilih secara acak untuk
membuat subset.
3. stratified_sampling, membangun
subset acak dan memastikan bahwa distribusi kelas dalam himpunan adalah sama
seperti dalam ExampleSet seluruh
Keterangan
} model (mod), memastikan bahwa nomor, order, jenis dan
peran atribut dari ExampleSet pada model yang dilatih konsisten dengan
ExampleSet pada port input data unlabeled.
} unlabelled data (unl) memastikan bahwa nomor, order,
jenis dan peran atribut ExampleSet ini konsisten dengan ExampleSet pada model
yang dikirim ke port input model dilatih.
} labeled Data (lab), Model yang diberikan dalam input
diterapkan pada ExampleSet yang diberikan dan ExampleSet terbaru disampaikan
dari port ini.
} model (mod), Model yang diberikan sebagai masukan
dilewatkan tanpa mengubah ke output melalui port ini.
Keterangan
} labelled data (lab), Port ini mengharapkan ExampleSet
berlabel. Apply Model merupakan contoh
yang baik dari operator yang menyediakan data berlabel. Pastikan bahwa
ExampleSet memiliki atribut label dan atribut prediksi.
} performance (per) Ini adalah parameter opsional yang
membutuhkan Performance Vector (daftar nilai kinerja kriteria).
} example set (exa), ExampleSet yang diberikan sebagai
masukan dilewatkan tanpa mengubah ke output melalui port ini.
Referensi
} STMIK Pelita Nusantara Medan 2015 : Data Mining
} Aprilia, Baskoro,
Ambarwati, & Wicaksono :
Belajar Data Mining dengan RapidMiner.
Jakarta. April 2013