Label

Struktur Data (10) Data Mining (5) Etika Profesi (5) Nilai (3) PDK (2) SIM (2)

Jumat, 08 Juni 2018

Decision Tree dengan Rapid Miner

Kelebihan Pohon Keputusan
}  Daerah pengambilan keputusan lebih simpel dan spesifik.
}  Eliminasi perhitungan-perhitungan tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu.
}  Fleksibel untuk memilih fitur dari internal node yang berbeda. Sehingga dapat meningkatkan kualitas keputusan yang dihasilkan.
}  Dengan menggunakan pohon keputusan, penguji tidak perlu melakukan estimasi pada distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut..

Kekurangan Pohon Keputusan
}  Kesulitan dalam mendesain pohon keputusan yang optimal.
}  Hasil kualitas keputusan yang didapat sangat tergantung pada bagaimana pohon tersebut didesain. Sehingga jika pohon keputusan yang dibuat kurang optimal, maka akan berpengaruh pada kualitas dari keputusan yang didapat.
}  Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan jumlahnya sangat banyak sehingga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
}  Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan yang besar.








Keterangan
}  Operator Decision Tree berguna untuk memprediksikan keputusan dari atribut-aribut yang dimasukkan ke dalam operator retrieve. Dengan mengubah tabel (atribut) yang dimasukkan menjadi sebuah pohon keputusan.
}  training set (tra), merupakan output dari operator retrieve. Port ini menghasilkan ExampleSet yang dapat diperoses menjadi decision tree.
}  model (mod) mengonversi atribut yang dimasukkan menjadi model keputusan dalam bentuk decision tree.
}  example set (exa) menghasilkan output tanpa mengubah inputan yang masuk melalui port ini. Digunakan untuk melihat ExampleSet dalam Hasil Workspace.


Keterangan
}  Criterion, berguna memilih kriteria untuk menetapkan atribut sebagai akar dari decision tree. kriteria yang dapat dipilih, antara lain
  1. Gain ratio merupakan varian dari information_gain. Metode ini menghasilkan information gain untuk setiap atribut yang memberikan nilai atribut yang seragam.
  2. Information_gain, dengan metode ini, semua entropi dihitung. Kemudian atribut dengan entropi minimum yang dipilih untuk dilakukan perpecahan pohon (split). Metode ini memiliki bias dalam memilih atribut dengan sejumlah besar nilai.
  3. Gini_index merupakan ukuran ketidakaslian dari suatu ExampleSet. Metode ini memisahkan pada atribut yang dipilih memberikan penurunan indeks rata-rata yang dihasilkan subset.
  4. Accuracy, metode ini memimilih beberapa atribut untuk memecah pohon (split) yang memaksimalkan akurasi dari keseluruhan pohon.

}  Minimal size of split, Ukuran untuk membuat simpul-simpul pada decision tree. Ukuran simpul adalah jumlah contoh dalam subset nya.
}  Minimal leaf size, Pohon yang dihasilkan memiliki himpunan bagian simpul daun sebanyak minimal leaf size.
}  Minimal gain merupakan nilai gain minimal yang ditentukan untuk menghasilkan simpul pohon keputusan.  Nilai yang terlalu tinggi dapat mencegah pemecahan dan menghasilkan pohon dengan simpul tunggal.
}  Maximal depth, Parameter ini digunakan untuk membatasi ukuran Putusan Pohon.  Jika nilainya diatur ke '-1', parameter kedalaman maksimal menempatkan tidak terikat pada kedalaman pohon.
}  Confidence, Parameter ini menentukan tingkat kepercayaan yang digunakan untuk pesimis kesalahan perhitungan pemangkasan.
}  Number of prepruning alternatives. Parameter ini menyesuaikan jumlah node alternatif untuk membelah ketika split dicegah dengan prepruning pada simpul tertentu.

 









 Keterangan pada X-Validation
}  training example set (tra) sebagai port input memperkirakan ExampleSet untuk melatih sebuah model. ExampleSet yang sama akan digunakan selama subproses pengujian untuk menguji model.
}  model (mod), model yang dibangun ExampleSet disampaikan melalui port ini.
}  training example set (tra), Port ini biasa digunakan untuk melihat ExampleSet dalam Workspace Result.
}  averagable (ave),  mengembalikan Vector Kinerja.  Hal ini dihasilkan dengan menerapkan model dan mengukur kinerjanya.  Harap dicatat bahwa kinerja statistik dihitung dengan skema estimasi dari kinerja yang akan dicapai dengan model yang dibangun.

 

Keterangan
}  average performances only (boolean), parameter ahli yang menunjukkan jika vector kinerja harus dirata-ratakan.
}  leave one out (boolean), melibatkan penggunaan satu contoh dari ExampleSet asli sebagai data, dan contoh yang tersisa sebagai data pelatihan.  Jika diatur dengan benar, parameter number of validations dapat diabaikan.
}  number of validations (integer), menentukan jumlah subset ExampleSet yang harus dibagi.
}  use local random seed (boolean), Parameter ini menunjukkan jika local random seed harus digunakan untuk mengacak contoh subset.
}  sampling type (selection)
1. linear_sampling, membagi ExampleSet ke partisi tanpa mengubah urutan contoh, yaitu subset dengan contoh berturut-turut diciptakan.
2. shuffled_sampling, Shuffled Sampling membangun subset acak ExampleSet. Contoh dipilih secara acak untuk membuat subset.
3. stratified_sampling, membangun subset acak dan memastikan bahwa distribusi kelas dalam himpunan adalah sama seperti dalam ExampleSet seluruh
 




Keterangan
}  model (mod), memastikan bahwa nomor, order, jenis dan peran atribut dari ExampleSet pada model yang dilatih konsisten dengan ExampleSet pada port input data unlabeled.
}  unlabelled data (unl) memastikan bahwa nomor, order, jenis dan peran atribut ExampleSet ini konsisten dengan ExampleSet pada model yang dikirim ke port input model dilatih.
}  labeled Data (lab), Model yang diberikan dalam input diterapkan pada ExampleSet yang diberikan dan ExampleSet terbaru disampaikan dari port ini.
}  model (mod), Model yang diberikan sebagai masukan dilewatkan tanpa mengubah ke output melalui port ini.





Keterangan
}  labelled data (lab), Port ini mengharapkan ExampleSet berlabel.  Apply Model merupakan contoh yang baik dari operator yang menyediakan data berlabel. Pastikan bahwa ExampleSet memiliki atribut label dan atribut prediksi.
}  performance (per) Ini adalah parameter opsional yang membutuhkan Performance Vector (daftar nilai kinerja kriteria).
}  example set (exa), ExampleSet yang diberikan sebagai masukan dilewatkan tanpa mengubah ke output melalui port ini.







Referensi
}  STMIK Pelita Nusantara Medan 2015 : Data Mining
}  Aprilia, Baskoro,  Ambarwati,  & Wicaksono : Belajar Data Mining dengan RapidMiner.  Jakarta.  April 2013