Pertemuan 12 : REGRESI LINEAR

Analisis regresi terbagi menjadi dua yaitu regresi linier dan Nonlinier. Analisi regresi linear terdiri dari analisis regresi linear sederhana dan analisis regresi linear berganda. Perbedaan antar keduanya terletak pada jumlah variabel independennya. Regresi linear sederhana hanya memiliki satu variabel independen, sedangkan regresi linear berganda mempunyai banyak variabel independen. Analisis regresi Nonlinier adalah regresi eksponensial.

  • KRITERIA DATA REGRESI LINIER

Terdapat dua syarat yang harus dipenuhi oleh data dalam menggunakan analisis regresi linier yaitu:

  1. Data

Data harus terdiri dari dua jenis variabel, yaitu dependen dan independen. Selain itu data berupa kuantitatif fan variabel berupa kategori, seperti SD, SMA, SMK, dll.

  1. Asumsi

Setiap data diasumsikan variabel dependen terdistribusi secara normal. Selain itu, antara variabel dependen dan independen harus memiliki hubungan linier dengan observasi harus saling bebas.

  • REGRESI LINEAR SEDERHANA
    1. Pengertian

Regresi linear sederhana adalah hubungan secara linear antara satu variabel independen (X) dengan variabel dependen (Y). Analisis ini digunakan untuk mengetahui arah hubungan antara variabel independen dengan variabel dependen apakah positif atau negatif serta untuk memprediksi nilai dari variabel dependen apabila nilai variabel independen mengalami kenaikan atau penurunan nilai. Data yang digunakan biasanya berskala interval atau rasio.

Rumus dari dari analisis regresi linear sederhana adalah sebagai berikut:

Y’ = a + bX

Keterangan:

Y= subyek dalam variabel dependen yang diprediksi

a = harga Y ketika harga X= 0 (harga konstan)

b = angka arah atau koefisien regresi, yang menunjukkan angka peningkatan ataupun penurunan variabel dependen yang didasarkan pada perubahan variabel independen. Bila (+) arah garis naik, dan bila (-) maka arah garis turun.

X = subyek pada variabel independen yang mempunyai nilai tertentu.

Secara teknik harga b merupakan tangent dari perbandingan antara panjang garis variabel dependen, setelah persamaan regresi ditemukan.

Dimana :

R  = koefisien korelasi product moment antara variabel variabel X dengan variabel Y

Sy = simpangan baku variabel Y

Sx = simpangan baku variabel X

Jika harga b merupakan fungsi dari koefisien korelasi. Bila koefisien korelasi tinggi, maka harga b juga besar, sebaliknya bila koefisien korelasi rendah maka harga b juga rendah (kecil). Selain itu bila koefisien korelasi negatif maka harga b juga negatif, dan sebaliknya bila koefisien korelasi positif maka harga b juga positif.

Selain itu harga a dan b dapat dicari dengan rumus berikut:

  • Uji Koefisien Regresi Sederhana (Uji t)

Uji ini digunakan untuk mengetahui apakah variabel independen (X) berpengaruh secara signifikan terhadap variabel dependen (Y). Signifikan berarti pengaruh yang terjadi dapat berlaku untuk populasi (dapat digeneralisasikan).

Rumus t hitung pada analisis regresi adalah sebagai berikut:

Langkah-langkah pengujian koefisien regresi sederhana adalah sebagai berikut:

  1. Menentukan Hipotesis

Ho = Tidak ada pengaruh yang signifikan

Ha = ada pengaruh yang signifikan

  1. Menentukan tingkat signifikansi

Biasanya menggunakan a = 5% atau 0,05

  1. Menentukan t hitung
  2. Menentukan t tabel
  3. Membandingkan t hitung dan t table dengan kriteria

Ho diterima jika: t hitung ≥ t tabel
Ho ditolak jika: t hitung < t tabel
Ho diterima jika: -t hitung ≤ t tabel
Ho di tolak jika: -t hitung > t tabel

Sebuah penelitian dilakukan untuk mengetahui apakah ada pengaruh makanan ikan (tiap hari dalam seminggu) [X1] dan panjang ikan (mm) [X2] terhadap berat ikan (kg) [Y] di Desa Tani Tambak Raya Sejahtera. Data sebagai berikut:

NoX1X2Y
1812537
21013741
3710034
41212239
5912940
61012842
779838
8810342
91113040
1089536
111011541
12810538
  1. Tentukan persamaan regresi ganda!
  2. Buktikan apakah ada pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan di Desa Tani Tambak Raya Sejahtera!

Ha = terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan

Ho = Tidak terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan

Ha: R ≠ 0

Ho: R = 0

NoX1X2YX1YX2YX1²X2²XX2
18125372964625641562513691000
2101374141056171001876916811370
3710034238340049100001156700
4121223946847581441488415211464
59129403605160811664116001161
6101284242053761001638417641280
77983826637244996041444686
8810342336432664106091764824
9111304044052001211690016001430
108953628834206490251296760
11101154141047151001322516811150
12810538304399064110251444840
𝝨108138746842365431110001626911832012665

Dari Tabel tersebut kita peroleh data sebagai berikut:

𝝨 X1                      = 108

𝝨 X2                      = 1387

𝝨 Y                  = 468

𝝨 X1Y             = 4236

𝝨 X2Y             = 54311

𝝨 X1²               = 1000

𝝨 X2²               = 162691

𝝨 Y²                = 18320

𝝨 XX2               = 212665

n                      = 12

Sebelum memasukan data tersebut ke persamaan b1, b2, dan a  kita gunakan metode skor deviasi untuk menyederhanakan data tersebut. Metode ini menggunakan persamaan

Jadi persamaan regresi gandanya Y = 128,2 – 0,52 X– 0,17 X2

Untuk membandingkan Fhitung dengan Ftabel , sebelumnya akan dicari nilai korelasi ganda

Dengan taraf signifikan: 0,05

df pembilang (horizontal) = m = 2

df penyebut (vertikal) = n-m-1 = 9

Ftabel = 4,26

Kaidah pengujian signifikansi:

Jika Fhitung >  Ftabel maka tolak Ho artinya signifikan.

Jika Fhitung < Ftabel ,terima Ho artinya tidak signifikan.

Fhitung >  Ftabel  = 11,74   4,26 berarti Ho ditolak dan Ha diterima jadi terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan tehadap berat ikan.       

Pertemuan 11 : CONTOH SOAL Algoritma Apriori (Association Rule)

Latihan Soal 1

Tabel 1. Transaksi yang dibeli

Golden rule (threshold) yang digunakan adalah : 60% atau barang yang dibeli paling sedikit 3.Untuk mempermudah, nama-nama item di Tabel 1, disingkat dengan diambil huruf awalnya saja, sebagai contoh :
M = Mango
O = Onion

Tabel 2. Transaksi yang dibeli (2)

Langkah ke-1 : Hitung banyaknya transaksi untuk setiap item. Hati-hati, untuk item O (Onion) dibeli sebanyak 4 biji, namun pembelian O hanya ada 3 transaksi.

Tabel 3. Banyaknya transaksi per item

Langkah ke-2 : Berdasarkan golden rule yang telah disebutkan di atas, saring data pada Tabel 3, hanya memilih item yang memiliki transaksi minimal sebanyak 3 transaksi. Item yang banyaknya transaksi kurang dari 3, dibuang. Hasilnya dapat dilihat

Tabel 4. Item yang paling sering dibeli

Langkah ke-3 : Buat pasangan item dimulai dari item pertama, yaitu MO, MK, ME, MY. Kemudian dilanjutkan dengan item kedua. Misalnya OK, OE, OY. Perhatikan, OM tidak dibuat karena OM = MO (pasangan yang dibuat dari item pertama).

Tabel 5. Pasangan Item

Langkah ke-4 : Hitung berapa kali suatu pasangan item dibeli bersamaan. Contohnya pasangan MO dibeli secara bersamaan dalam itemset {M, O, N, K, E, Y}. Pasangan MK dibeli bersamaan sebanyak 3 kali yaitu di dalam {M,O,N,K,E,Y}, {M,A,K,E}, dan {M,U,C, K, Y}. Hasilnya dapat dilihat pada Tabel 6.

Tabel 6. Banyaknya Transaksi Pasangan Item

Langkah ke-5 : Gunakan golden rule, hapus semua pasangan item yang banyaknya transaksi kurang dari tiga. Hasilnya adalah pada Tabel 7.

Tabel 7. Transaksi Pasangan Item yang Terbanyak

Langkah ke-6 : Buat pasangan tiga item dengan aturan menggunakan pasangan item pada Tabel 7 yang memiliki huruf awal yang sama yaitu :

• OK dan OE, menjadi OKE
• KE dan KY, menjadi KEY

Kemudian hitung ada beberapa banyaknya transaksi dari pasangan tiga item berdasarkan Tabel 3. Hasilnya dapat dilihat pada Tabel 8.

Tabel 8. Banyaknya Transaki 3 Pasang Item

Dalam langkah ini, misalkan ada tiga pasangan item ABC, ABD, ACD, ACE, BCD dan akan dibuatkan pasangan 4 item, carilah 2 huruf awal yang sama. Contoh :

• ABC dan ABD, menjadi ABCD
• ACD dan ACE, menjadi ACDE

Dan seterusnya. Secara umum, carilah pasangan item yang huruf (item) terakhirnya berbeda.

Langkah ke-7 : Gunakan lagi golden rule, dengan membuang pasangan tiga item yang banyaknya transaksi kurang dari 3. Hasilnya tinggal OKE karena KEY hanya dibeli bersamaan dua kali.

Kesimpulan : Tiga item yang sering dibeli bersamaan adalah O, K, dan E.

Untuk mengetahui tingkat keyakinan (confidence), frequent itemset (yaitu {O, K, E}) dapat digunakan untuk mencari aturan-aturan asosiasi antar item di dalam frequent itemset tersebut. Caranya adalah :
1. Itemset dibuatkan himpunan bagiannya. Hasilnya seperti pada contoh di bawah :
• {O}
• {K}
• {E}
• {O, K}
• {K, E}
• {O, E}

2. Cari asosiasi pada semua himpunan bagian yang telah dibuat, misal : {O} => {K, E} artinya : jika O dibeli, bagaimana kemungkinan K dan E akan dibeli pada transaksi yang sama. O dibeli pada 3 transaksi dan di dalam 3 transaksi tersebut, K dan E juga dibeli. Maka keyakinannya adalah :

{O} => {K, E} : keyakinannya adalah 3/3 x 100% = 100%.
{K} => {O,E} : keyakinannya adalah 3/5 x 100% = 60%
{E} => {O,K} : keyakinannya adalah 3/4 x 100% = 75%
{K,E} => {O} : keyakinannya adalah 3/3 x 100% = 100%
{O,E} => {K} : keyakinannya adalah 3/3 x 100% = 100%
{O,K} => {E} : keyakinannya adalah 3/4 x 100% = 100%

Pertemuan 10 : Algoritma Apriori (Association Rule)

Pengertian Algoritma Apriori

Algoritma apriori merupakan salah satu algoritma klasik data mining. Algoritma apriori digunakan agar komputer dapat mempelajari aturan asosiasi, mencari pola hubungan antar satu atau lebih item dalam suatu dataset.

Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif.

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} -> {susu} (support = 40%, confidence = 50%)

Yang artinya : “Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”

Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).

Tetapi di lain pihak Apriori memiliki kelemahan karena harus melakukan scan database setiap kali iterasi, sehingga waktu yang diperlukan bertambah dengan makin banyak iterasi. Masalah ini yang dipecahkan oleh algoritma-algoritma baru seperti FP-growth.

Contoh Pemakaian Hasil dari Mempelajari Aturan Asosiasi

  1. Meletakkan barang-barang yang sering dibeli bersamaan dengan posisi berdekatan atau mudah dijangkau sehingga diharapkan pembeli membeli barang lebih banyak. Cara ini dikembangkan oleh Wal-Mart yang merupakan salah satu pasar swalayan populer di Amerika. Saat itu Wal-Mart menganalisis data yang dimilikinya, dan menemukan bahwa pada hari Jumat sore, pembeli laki-laki yang membeli popok, ternyata cenderung membeli bir. Dari hasil temuan tersebut, Wal-Mart menempatkan bir di dekat tempat penjualan popok, dan alhasil penjualan bir meningkat. Kasus ini menjadi terkenal, karena sebelumnya banyak yang tidak menduga akan ampuhnya data mining.
  2. Amazon.com, mengembangkan perekomendasi (recommender), yaitu sebuah program untuk merekomendasikan barang-barang lain kepada pembeli pada saat pembeli melakukan browsing atau membeli suatu barang berdasarkan tingkat keyakinan (confidence).

Langkah atau Cara Kerja Apriori

  1. Tentukan minimum support.
  2. Iterasi 1 : hitung item-item dari support(transaksi yang memuat seluruh item) dengan men-scan database untuk 1-itemset, setelah 1-itemset didapatkan, dari 1-itemset apakah diatas minimum support, apabila telah memenuhi minimum support, 1-itemset tersebut akan menjadi pola frequent tinggi.
  3. Iterasi 2 : untuk mendapatkan 2-itemset, harus dilakukan kombinasi dari k-itemset sebelumnya, kemudian scan database lagi untuk hitung item-item yang memuat support. itemset yang memenuhi minimum support akan dipilih sebagai pola frequent tinggi dari kandidat.
  4. Tetapkan nilai k-itemset dari support yang telah memenuhi minimum support dari k-itemset.
  5. Lakukan proses untuk iterasi selanjutnya hingga tidak ada lagi k-itemset yang memenuhi minimum support.

Formula Pencarian Nilai Support & Confidence

Nilai support sebuah item diperoleh dengan rumus berikut:

Sedangkan nilai support dari 2 item diperoleh dari rumus berikut:

Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A -> B. Nilai confidence dari aturan A -> B diperoleh dari rumus berikut:

Pertemuan 9 : Algoritma K-Means Clustering

K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.

Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means merupakan salah satu metode data clustering non-hierarchical atau Partitional Clustering.

Dari banyak siswa diambil 12 siswa sebagai contoh untuk penerapan algoritma    k-means  dalam penjurusan siswa. Percobaan dilakukan dengan menggunakan parameter-parameter berikut:

Jumlah cluster    : 2

Jumlah data        : 12

Jumlah atribut     : 8Berikut merupakan data yang digunakan untuk melakukan percobaan perhitungan manual.

NISNamaMatematikaFisikaKimiaBiologiSejarahAkuntansiSosiologiGeografi
2012173Afgansyah7975758576787680
2012174Denny Sumargo8476797776777581
2012175Lina Nur Aini7784788592897782
2012176Ananda Anugrah7886847778777575
2012177Putri Khadijah8282819190827991
2012178Ika Inayah7575708275757975
2012179Wa Ode Sofia Z.7775758980807575
2012180Budy Santoso7776707777807580
2012181Andi Eka Murti7976758477817677
2012182Ahsan Muhajir8075757575787779
2012183Siswan Sumargo7671757577817984
2012184Anis Fadilah8077757878777780

Iterasi ke-1

1. Penentuan pusat awal cluster

Untuk penentuan awal di asumsikan:

Diambil data ke- 2 sebagai pusat Cluster Ke-1: (84, 76, 79, 77, 76, 77, 75, 81)

Diambil data ke- 5 sebagai pusat Cluster Ke-2: (82, 82, 81, 91, 90, 82, 79, 91)

2. Perhitungan jarak pusat cluster

Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance, kemudian akan didapatkan matrik jarak yaitu C1 dan C2 sebagai berikut:

Rumus Euclidian distance

MatematikaFisikaKimiaBiologiSejarahAkuntansiSosiologiGeografiC1C2Jarak Terpendek
797575857678768010.4421.72610.44030651
8476797776777581024.0210
778478859289778224.14514.5614.56021978
788684777877757514.17726.03814.17744688
828281919082799124.02100
757570827575797515.65228.8115.65247584
777575898080757516.46222.13616.46207763
777670777780758011.87426.2311.87434209
797675847781767711.13622.47211.13552873
80757575757877796.855727.0926.8556546
767175757781798412.28825.84612.28820573
80777578787777806.557422.9786.557438524

3. Pengelompokkan data

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group.

G1
NoC1C2
110
210
301
410
501
610
710
810
910
1010
1110
1210

4. Penentuan pusat cluster baru

Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut:

NamaMatematikaFisikaKimiaBiologiSejarahAkuntansiSosiologiGeografiCluster baru
Afgansyah797575857678768078.579.5
Denny Sumargo847679777677758176.283
Lina Nur Aini778478859289778275.379.5
Ananda Anugrah788684777877757579.988
Putri Khadijah828281919082799176.991
Ika Inayah757570827575797578.485.5
Wa Ode Sofia Z.777575898080757576.478
Budy Santoso777670777780758078.686.5
Andi Eka Murti7976758477817677  
Ahsan Muhajir8075757575787779  
Siswan Sumargo7671757577817984  
Anis Fadilah8077757878777780  

Iterasi Ke-25. Ulangi langkah ke 2 (kedua) hingga posisi data tidak mengalami perubahan.

Cluster baru yang ke-178.576.275.379.976.978.476.478.6
Cluster baru yang ke-279.58379.5889185.57886.5
MatematikaFisikaKimiaBiologiSejarahAkuntansiSosiologiGeografiC1C2Jarak Terpendek
79757585767876805.55720.5185.556977596
84767977767775817.929722.9567.929691041
778478859289778221.1827.28017.280109889
788684777877757514.08823.1314.08829301
828281919082799123.3817.28017.280109889
75757082757579759.004426.6469.004443348
777575898080757510.66219.59610.66208235
77767077778075806.72923.3246.729041537
79767584778176775.165319.95.165268628
80757575757877795.663924.965.663920903
767175757781798410.00423.85410.0039992
80777578787777803.4756213.475629439

Langkah selanjutnya sama dengan langkah pada nomor 3 jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

G2
NoC1C2
110
210
301
410
501
610
710
810
910
1010
1110
1210

Karena G2 = G1 memiliki anggota yang sama maka tidak perlu dilakukan iterasi/perulangan lagi. Hasil clustering telah mencapai stabil dan konvergen.

Contoh Kasus dengan Algoritma K-Medoids

Diketahui sepuluh data dengan k = 2

NoX1X2
126
234
338
447
562
664
773
874
985
1076

Langkah 1

  Data ObjekCost13
426333
438443
447453
462563
464373
473593
4856103
4766

Misalkan kita asumsikan  

Jadi C1 dan C2 dipilih sebagai medoids.Hitung jarak untuk menghubungkan setiap objek data yang terdekat dengan. Nilai yang terdekat dengan medoids dapat dilihat pada tabel.

  Data ObjekCost13
426333
438443
447453
462563
464373
473593
4856103
4766
  Data ObjekCost17
426737
438847
447657
462367
464177
473197
4852107
4762

Sehingga clusternya menjadi:

Langkah 2
Pilih satu cluster yang bukan medoids misalkan 

Jadi sekarang medoidnya adalah 

jika C1 dan 0′ adalah medoid baru, maka hitung totalnya menggunakan rumus pada langkah 1

  Data ObjekCost13
426333
438443
447453
462563
464373
474493
4856103
4766
  Data ObjekCost17
326837
338947
347757
362267
364277
374197
3853107
3763

Sehingga total costnya

Karena Total cost baru > Total cost awal, maka tidak terjadi pertukaran posisi.

Pertemuan 8 : ALGORITMA KKN (K-Nearest Neighbor)

K-nearest neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu data berdasarkan data pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya (nearest neighbors). Dengan k merupakan banyaknya tetangga terdekat.

 Cara Kerja Algoritma K-Nearest Neighbors (KNN)

K-nearest neighbors melakukan klasifikasi dengan proyeksi data pembelajaran pada ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data pembelajaran. Setiap data pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.

Klasifikasi Terdekat (Nearest Neighbor Classification)

Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak yang telah memuat titik-titik c data pembelajaran. Proses klasifikasi dilakukan dengan mencari titik c terdekat dari c-baru (nearest neighbor). Teknik pencarian tetangga terdekat yang umum dilakukan dengan menggunakan formula jarak euclideanBerikut beberapa formula yang digunakan dalam algoritma knn.

  • Euclidean Distance

Jarak Euclidean adalah formula untuk mencari jarak antara 2 titik dalam ruang dua dimensi.

  • Hamming Distance

Jarak Hamming adalah cara mencari jarak antar 2 titik yang dihitung dengan panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode biner.

  • Manhattan Distance

Manhattan Distance atau Taxicab Geometri adalah formula untuk mencari jarak d antar 2 vektor p,q pada ruang dimensi n.

  • Minkowski Distance

Minkowski distance adalah formula pengukuran antar 2 titik pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi euclidean distance dan mahattan distance.

Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.

Banyaknya k Tetangga Terdekat

Untuk menggunakan algoritma k nearest neighbors, perlu ditentukan banyaknya k tetangga terdekat yang digunakan untuk melakukan klasifikasi data baru. Banyaknya k, sebaiknya merupakan angka ganjil, misalnya k = 1, 2, 3, dan seterusnya. Penentuan nilai k dipertimbangkan berdasarkan banyaknya data yang ada dan ukuran dimensi yang dibentuk oleh data. Semakin banyak data yang ada, angka k yang dipilih sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka k yang dipilih sebaiknya semakin tinggi.

Algoritma K-Nearest Neighbors
  1. Tentukan k bilangan bulat positif berdasarkan ketersediaan data pembelajaran.
  2. Pilih tetangga terdekat dari data baru sebanyak k.
  3. Tentukan klasifikasi paling umum pada langkah (ii), dengan menggunakan frekuensi terbanyak.
  4. Keluaran klasifikasi dari data sampel baru.

Contoh soal Perhitungan KNN

Diberikan data Training berua dua atribut Bad dan Good untuk mengklasiikasikan sebuah data apakah tergolong Bad atau Good , berikut ini adalah contoh datanya :

Contoh data training
Contoh data training

Langkah penyelesaian 

Kita tentukan parameter K. Misalnya kita buat jumlah tertangga terdekat K = 3.

 1 kita hitung jarak antara data baru dengan semua data training. Kita menggunakan Euclidean Distance. Kita hitung seperti pada table berikut :

Perhitungan jarak dengan euclidean distance

 2 kita urutkan jarak dari data baru dengan data training dan menentukan tetangga terdekat berdasarkan jarak minimum K.

pengurutan jarak terdekat data baru dengan data training

3 Dari kolom 4 (urutan jarak) kita mengurutkan dari yang terdekat ke terjauh antara jarak data baru dengan data training. ada 2 jarak yang sama (yaitu 4) pada data baris 2 dan baris 6, sehingga memiliki urutan yang sama. Pada kolom 5 (Apakah termasuk 3-NN?) maksudnya adalah K-NN menjadi 3-NN , karena nilai K ditentukan sama dengan 3.

4 tentukan kategori dari tetangga terdekat. Kita perhatikan baris 3, 4, dan 5 pada gambar sebelumnya (diatas). Kategori Ya diambil jika nilai K<=3. Jadi baris 3, 4, dan 5 termasuk kategori Ya dan sisanya Tidak.

penentuan kategori yang termasuk K=3

Kategori ya untuk K-NN pada kolom 6, mencakup baris 3,4, dan 5. Kita berikan kategori berdasarkan tabel awal. baris 3 memiliki kategori Bad, dan 4,5 memiliki kategori Good.

5 Gunakan kategori mayoritas yang sederhana dari tetangga yang terdekat tersebut sebagai nilai prediksi data yang baru.

Data yang kita miliki pada baris 3, 4 dan 5 kita punya 2 kategori Good dan 1 kategori Bad. Dari jumlah mayoritas (Good > Bad) tersebut kita simpulkan bahwa data baru (X=3 dan Y=5) termasuk dalam kategori Good.

Pertemuan 6 : KLASIFIKASI METODE ALGPRITMA C4.5

Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training samples dan samplesTraining samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data (Sunjana, 2010).

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat oleh Quinlan (Quinlan, 1993). Beberapa pengembangan yang dilakukan pada C4.5 antara lain adalah : bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.

1.1. Klasifikasi

Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya. Teknik klasifikasi terbagi menjadi beberapa teknik yang diantaranya adalah Pohon Keputusan (Decision Tree).

1.2. Pohon Keputusan (Decision Tree)

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linoff, 2004).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.

Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).

1.3. Algoritma C4.5

Berikut ini algoritma dasar dari C4.5:
Input : sampel training, label training, atribut
Output : pohon keputusan

  1. Membuat simpul akar untuk pohon yang dibuat
  2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
  3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
  4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training
  5. Untuk yang lain, Mulai
    1. A —— atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
    2. Atribut keputusan untuk simpul akar —– A
    3. Untuk setiap nilai, vi, yang mungkin untuk A
      1. Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
      2. Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
      3. Jika sampel Svi kosong
        1. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training
        2. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])
    4. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Craw 2005).

  1. Pilih atribut sebagai akar
  2. Buat cabang untuk masing-masing nilai
  3. Bagi kasus dalam cabang
  4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

1.3.1 Gain

Konsep Gain

  • Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap output data S.
  • Perolehan informasi didapat dari output data atau variable dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A).

1.3.2. Entropy


Konsep Entropy :

  • Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sampel S.
  • Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
  • Entropy digunakan untuk mengukur ketidakaslian S.

1.3.3. Information Gain

Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana, 2010). Dalam prosesnya perhitungan gain bisa terjadi atau tidak suatu missing value.

1.4. Prinsip Kerja

Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:

  1. Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon keputusan adalah mengkontruksi struktur data pohon yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki kelas. C4.5 melakukan konstruksi pohon keputusan dengan metode divide and conquer. Pada awalnya hanya dibuat node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan lagi sampai terbentuk daun-daun.
  2. Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari pohon keputusan akan membentuk suatu kondisi dalam bentuk if-then. Aturan-aturan ini didapat dengan cara menelusuri pohon keputusan dari akar sampai daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi atau suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu then.

Contoh


Langkah 1

  • Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY, dan WINDY.
  • Setelah itu lakukan perhitungan Gain untuk setiap atribut.
  • Hasil perhitungan ditunjukan di bawah ini.

Perhitungan Node 1

Cara Perhitungan Node 1 (1)


Cara Perhitungan Node 1 (2)

Cara Perhitungan Node 1 (3)

Cara Perhitungan Node 1 (3)

  • Dari hasil diketahui bahwa atribut dengan gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Sehingga HUMIDITY dapat menjadi node akar.
  • Ada dua nilai atibut dari HUMIDITY, yaitu HIGH dan NORMAL.
  • Nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
  • Tetapi untuk nilai HIGH masih perlu dilakukan perhitungan lagi.


Langkah 2

  • Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No. 
  • Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY, yang dapat menjadi node akar dari nilai atribut HIGH.
  • Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.

Perhitungan Node 1.1

Cara Perhitungan Node 1.1 (1)

  • Atribut dengan Gain tertinggi adalah OUTLOOK, yaitu sebesar 0.6995.
  • Sehingga OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH.
  • Ada tiga nilai dari atribut OUTLOOK yaitu CLOUDY, RAINY dan SUNNY.

  – CLOUDY => klasifikasi kasus 1 (Yes)
  – SUNNY   => klasifikasi kasus 1 (No)
  – RAINY     => masih perlu perhitungan lagi.

Cara Perhitungan Node 1.1 (2)

Langkah 3

  • Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No. 
  • Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut TEMPERATURE dan WINDY, yang dapat menjadi node cabang dari nilai atribut RAINY.

Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.

Perhitungan Node 1.1.2


Cara Perhitungan Node 1.1.2 (1)

  • Atribut dengan Gain tertinggi adalah WINDY, yaitu sebesar 1.
  • Sehingga WINDY dapat menjadi node cabang dari nilai atribut RAINY.
  • Ada dua nilai dari atribut WINDY, yaitu FALSE dan TRUE.


  – Nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 (Yes).
  – Nilai atribut TRUE sudah mengklasifikasikan kasus menjadi 1 (No).
  – Sehingga tidak perlu dilakukan perhitungan lagi.
 
Cara Perhitungan Node 1.1.2 (2)

PENERAPAN ALGORITMA C4.5 UNTUK MENENTUKAN DATA STOK DAN TARGET PERMINTAAN MATERIAL YANG PALING DIBUTUHKAN GUDANG LOGISTIK PADA PT PLN (Persero) AREA KEBON JERUK

Latar Belakang

Perusahaan Listrik Negara (PLN) merupakan Perusahaan milik Negara yang seluruh kegiatannya dituntut lebih efektif dan efisien. Efisiensi kerja dapat mendukung tingkat pelayanan mutu, sehingga dalam pengolahan datanya dapat membantu mengatasi permasalahan yang ada mengenai pengontrolan stok material gudang dan permintaan pemasangan listrik baru dapat dengan cepat, sigap dan memberikan informasi dengan stok material yang memadai, serta kondisi material yang memiliki keadaan baik serta cukup. Permintaan pemasangan listrik baru dan penanganan gangguan pada pemakaian dan sarana prasarana dari aliran listrik akan dapat terpenuhi tanpa adanya delay yang disebabkan tidak adanya stok material yang sesuai dengan permintaan kebutuhan materialnya. Seiring dengan berkembangnya tekhnologi informasi dan komunikasi, persaingan bisnis maupun juga pada persaingan bisnis dalam dunia industri yang
semakin ketat. Jumlah perusahaan semakin banyak dan terus melakukan usaha dan strategi dalam mempertahankan bisnisnya tidak lepas dari peran perusahaan dalam mempertahankan bisnisnya. Kesuksesan perusahaan dalam mempertahankan bisnisnya tidak lepas dari peran perusahaan tersebut dalam mengelola dan tentu saja dapat menjaga kelangsungan bisnisnya dalam dunia industri saat ini. Inventory tersebut bisa mengelola stok barang atau material di gudang yang nantinya akan ada banyak permintaan material yang dibutuhkan.

Dari hasil pengolahan data mentah dengan tahapan-tahapan sebelumnya, maka diperoleh data set dengan atribut yang digunakan dalam penentuan klasifikasi persediaan material gudang adalah Nama Material, Valution type, Kategori Material, fisik material dan target permintaan. Atribut tersebut juga digunakan perusahaan untuk menentukan barang/material gudang yang paling sering dipakai. Data yang sudah didapat telah di analisis bahwa data tersebut memilik 5 jenis material yang berjumlah “BANYAK” (mendapatkan permintaan pengadaan Material/barang) dan 9 jenis material yang berjumlah “SEDIKIT” (tidak mendapatkan permintaan pengadaan material/barang). Dibawah ini merupakan Data stok material/barang gudang yang berjumlah 14 jenis material.

NoNama BarangSatuanKategori MaterialValuation TypeJumlah BarangFisik MaterialStok Out/ target permintaan
1TRF DIS;;20kV/400V;3P;400 kVA;DYN5;ODUMDUNORMAL0TIDAK ADABANYAK
2CUB;N ISO;LBS MOTORIZE;24KV;630A; 16KASETMDUNORMAL0TIDAK ADABANYAK
3LVSB;DIST;3P;400V;630 A;4LINE;ODSETMDUNORMAL  4ADASEDIKIT
4CT;20kV;K;30-60/5- 5A;0.2;10VA;IDBHNON MDUNORMAL  3ADASEDIKIT
5MTR;kWH E- PR;;1P;230V;5- 60A;1;;2WBHMDUNORMAL  367ADABANYAK
6CABLE PWR;NA2XSEYBY;3X24 0mm2;20kV;UGMMDUNORMAL  1,724ADABANYAK
7JOINT;1kV;CU-CU;16- 16mm2;;1P;PRHSBHMDUBURSA  765ADASEDIKIT
8MCB;220/250V;1P;6A;5 0Hz;BHMDUNORMAL  5ADASEDIKIT
9MCB;220/250V;1P;50A; 50Hz;BHMDUHAPUS  1,549ADASEDIKIT
10BOX;APPMCCB80A+STR IP;ST1.5;1205X420X250SETMDUNORMAL  1ADASEDIKIT
11UNIV ACC;KUNCI GEMBOK MASTERBHNON MDUNORMAL  90ADASEDIKIT
12CABLE PWR ACC;STAINLEES STEEL STRIP SSSMNON MDUNORMAL  1,522ADASEDIKIT
13MTR ACC;MODEM GSM 12V DC DIGITALBHNON MDUNORMAL0TIDAK ADASEDIKIT
14POLE;STEEL;220V;CIRCL ;9m;200daN;;BTGMDUNORMAL  11ADABANYAK
  • Perhitungan Metode Decision Tree dan Algoritma C4.5

Perhitungan Metode Decision Tree dan Algoritma C4.5 Dari data tabel data sampel stok material/barang, maka dilakukan perhitungan menggunakan metode decision tree dan Algoritma C4.5, agar di dapat penentuan target permintaan

material gudang yang paling sering diminta dan dibutuhkan oleh user, berdasarkan data tabel tarikan output sistem ERP/SAP logistik dengan membuat tabel percabangan. Langkah-langkah dalam metode algoritma C4.5 yang perlu dilakukan antara lain :

  1. Pilih atribut sebagai akar
  • Buat cabang untuk masing-masing nilai
  • Bagi kasus dalam cabang
  • Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Adapun calon percabangan yang mungkin terjadi dari tabel pertama Tabel 4.2 Calon Percabangan

Kategori BarangValution TypeFisik Barang
MDUNORMALADA
NON MDUBURSATIDAK ADA
 HAPUS 

Berikut membuat tabel untuk menghitung frekwensi yang muncul dari setiap hasil produk berikut dengan proporsinya serta entropy-nya H(t).

Tabel 4.3 Frekuensi

Target PermintaanFrekuensiPiLog2 Pi-Pi.log2Pi
BANYAK50.357142857−1.4854268280.530509581
SEDIKIT90.642857143-0.6374299200.409776377

Dalam penelitian ini eksperimen dan pengujian dilakukan dengan langkah- langkah sebagai berikut:

a. Entropy dan Information Gain, Tahap pertama yang dilakukan adalah menghitung nilai entropy dimana nilainya harus dihitung tiap atribut berdasarkan tiap kasus seluruh atribut dapat dilihat pada tabel IV.6 hasil dari perhitungan nilai gain dan entropy pada data stok material dari masing masing atribut ditunjukan pada tabel dibawah ini:

Tabel 4.4 Perhitungan Nilai Entropy dan Gain

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Penghitungan Entropy Kelayakan

𝑛

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑−𝑝𝑖 ∗ log2 𝑝𝑖

𝑖=1

dengan :

S : Himpunan Kasus n : Jumlah partisi S

pi : Proporsi dari Si terhadap S

dimana, perhitungan Node 1 (Root) dari entropy H(t) nya, adalah sebagai berikut :

Entropy (Total) = (− 5/14 𝑥 log2( 5/14))+ (− 9/14 𝑥 log2(9/14))

Entropy (Total) = -(-1.485426828)+-(-0.637429920)

Entropy (S) = 2.122856748

Berikut adalah hasil perhitungan Entropy dan Gain untuk tiap tiap node :

Nilai atribut kategori material :

Tabel 4.5 Entropy kategori material node 1.1

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut kategori material: Jumlah kasus MDU = 10

Jumlah kasus MDU , Banyak = 5 Jumlah kasus MDU, Sedikit =5

Smdu [5,5] = (− 5/10 𝑥 log2( 5/10))+ (− 5/10 𝑥 log2(5/10)) Entropy total= 0,5+0,5

Entropy total= 1

Tabel 4.6 Entropy kategori material node 1.2

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut material

Jumlah kasus NONMDU = 4

Jumlah kasus NONMDU , Banyak = 4 Jumlah kasus NONMDU, Sedikit =0

Snon mdu [4,0] = (− 4/4 𝑥 log2( 4/4))+ (− 0/4 𝑥 log2(0/4)) Entropy total = 0+0

Entropy total = 0

  Nilai atribut Valuation Type:

Tabel 4.7 Entropy Valuation Type node 2.1

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut Valuation Type :

Jumlah kasus NORMAL = 12

Jumlah kasus NORMAL , Banyak = 5 Jumlah kasus NORMAL, Sedikit =7

Snormal [5,7] = (− 5/12 𝑥 log2( 5/12))+ (− 7/12 𝑥 log2(7/12))

Entropy (total)= -(0.416666666x−1.263034408)+ -(-0.583333333x−0.777607579) Entropy (total)= 0.526264335+-0.453604421

Entropy (total)= 0.072659914

Tabel 4.8 Entropy Valuation Type node 2.2

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut Valuation Type :

Jumlah kasus BURSA = 1

Jumlah kasus BURSA , Banyak = 1

Jumlah kasus BURSA, Sedikit =0

Sbursa [1,0] = (− 1/1 𝑥 log2( 1/1))+ (− 0/1 𝑥 log2(0/1)) Entropy (total)= 0+0

Entropy (total)= 0

Tabel 4.9 Entropy Valuation Type node 2.3

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut Valuation Type :

Jumlah kasus HAPUS= 1

Jumlah kasus HAPUS , Banyak = 1 Jumlah kasus HAPUS, Sedikit =0

Shapus [1,0] = (− 1/1 𝑥 log2( 1/1))+ (− 0/1 𝑥 log2(0/1)) Entropy (total)= 0+0

Entropy (total)= 0

Nilai atribut Fisik Material:

Tabel 4.10 Entropy Fisik Material node 3.1

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut Fisik Material :

Jumlah kasus ADA= 11

Jumlah kasus ADA , Banyak = 8 Jumlah kasus ADA, Sedikit =2

Sada [8,2] = (− 8/11 𝑥 log2( 8/11))+ (− 2/11 𝑥 log2(2/11))

Entropy(total)= -(-0.459431619) + -(2.459431625)

Entropy (total) = 2.9188632449

Nilai atribut Fisik Material:

Tabel 4.11 Entropy Fisik Material node 3.2

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
Kategori BarangMDU105511.408571034
NON MDU4400
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Maka hasil perhitungan entropy pada atribut Fisik Material :

Jumlah kasus TIDAK ADA= 3

Jumlah kasus TIDAK ADA , Banyak = 1 Jumlah kasus TIDAK ADA, Sedikit =2

Stidak ada [1,2] = (− 1/3 𝑥 log2( 1/3))+ (− 2/3 𝑥 log2(2/3)) Entropy(total)= -(−1.584962502)+ -(−0.584962502)

Entropy(total)=2.169925004

Setelah nilai entropy total sudah diketahui, maka langkah selanjutnya adalah mencari nilai gain. Untuk mendapatkan gain tiap atribut, maka langkah selanjutnya dilakukan perhitungan, dengan langkah-langkah sebagai berikut :

Rumus penghitungan informasi Gain

Berfungsi untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada.

𝑛

(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) −∑ | S𝑖 |               𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (S𝑖)

𝑖=1

| 𝑆

dengan :

S : Himpunan kasus A : Atribut

n : Jumlah partisi atribut A

|Si| : Jumlah kasus pada partisi ke i

|S| : Jumlah kasus dalam S

Penghitungan informasi Gain kategori material/barang

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)
Kategori BarangMDU1055
NON MDU440
KATEGORI BARANG
MDU
NON MDU
SEDIKIT
BANYAK

S MDU [5,5] = (− 5/10 𝑥 log2( 5/10))+ (− 5/10 𝑥 log2(5/10))= 0,5+0,5 = 1 S NonMDU [4,0] = (− 4/4 𝑥 log2( 4/4))+ (− 0/4 𝑥 log2(0/4))= 0+0 = 0

Gain (S, Kategori Material ) = Entropy S – (10/14) S MDU – (4/14) SNonMDU

= 2.122856748 – (10/14) x 1 – (4/14) x 0

= 2.122856748 – 0.714285714 – 0

= 1.408571034

Penghitungan informasi Gain Valution type

Snormal [7,4] = (− 7/12 𝑥 log2( 7/12))+ (− 4/12 𝑥 log2(4/12))

= -(-0.777607579) + -(-1.584962502) = 2.362570081

Sbursa [1,0] = (− 1/1 𝑥 log2( 1/1))+ (− 0/1 𝑥 log2(0/1))= 0+0= 0 Shapus [1,0] = (− 1/1 𝑥 log2( 1/1))+ (− 0/1 𝑥 log2(0/1))= 0+0= 0

Gain (S, Valution type) = Entropy S – (12/14) Snormal– (1/14) Sbursa-(1/14) Shapus = 2.122856748 – (12/14) x 2.362570081 – (1/14) x 0 – (1/14) x 0

= 2.122856748 –2.025060069 – 0 – 0

= 0.097796679

Penghitungan informasi Gain Fisik Material/Barang

Sada [8,2] = (− 8/11 𝑥 log2( 8/11))+ (− 2/11 𝑥 log2(2/11))

= -(-0.459431619) + -(2.459431625) = 2.9188632449

Stidak ada [1,2] = (− 1/3 𝑥 log2( 1/3))+ (− 2/3 𝑥 log2(2/3))

= -(−1.584962502)+ -(−0.584962502) =2.169925004

Gain (S, Fisik Material) = Entropy S – (11/14) SAda– (3/14) STidak ada

= 2.122856748 – (11/14) x 2.9188632449 – (3/14) x 2.169925004

= 2.122856748 – 2.293392550 – 0.464983920

= −0.635519722

Tabel 4.12 Entropy dan Information Gain

CabangJml Kasus (S)Sedikit (S1)Banyak (S2)Entropy (Si)GAIN
KategoriMDU105511.408571034
BarangNON MDU4400 
Valution TypeNormal12750.0726599140.097796679
Bursa1100
Hapus1100
Fisik BarangAda11822.9188632449−0.635519722
Tidak Ada3122.169925004

Berdasarkan hasil perhitungan Entropy dan information gain manual, tampak bahwa atribut kategori material/barang yang bisa dijadikan acuan dalam menyediakan prediksi terbaik dengan nilai gain tertinggi yaitu 1.408571034 sebagai target atribut kelas permintaan dari masing-masing user. Sebagai langkah berikutnya akan menjelaskan bahwa kriteria kategori material menjadi prioritas utama dalam menentukan hasil keputusan.

Hasil Implementasi Sistem

Atribut-atribut yang digunakan dalam penelitian ini adalah kategori material/barang, valuation type dan fisik material/barang, yang digunakan untuk menentukan pengklasifikasian kelas target permintan yang banyak, dan kelas target permintaan yang sedikit.

  • Implementasi decision tree dan C4.5 pada RapidMiner 7.2

RapidMiner 7.2 merupakan software tool Open Source untuk data mining. RapidMiner 7.2 menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Data stok material/barang yang diperoleh dari Bidang Konstruksi subbidang Logistik yang sudah dimiliki dan telah dianalisis

kemudian diolah menggunakan aplikasi RapidMiner 7.2 untuk mengetahui klasifikasi target permintaan material yang paling sering diminta oleh user pada bidang teknik pada PT PLN (Persero) Area Kebon Jeruk menggunakan Decision Tree. Menjalankan RapidMiner 7.2 pertama kali, jalankan RapidMiner 7.

KESIMPULAN

Adapun kesimpulan yang didapatkan dari proses perhitungan menggunakan metode algoritma C4.5 pada klasifikasi data barang yaitu :

1. Mampu mengklasifikasikan data dengan baik

2. Mampu menghasilkan perhitungan decision tree dengan metode C4.5 secara lengkap

3. Mampu menghasilkan perhitungan akurasi tertinggi

4. Mampu melakukan perhitungan data tunggal

Berdasarkan seluruh hasil tahapan perhitungan yang telah dilakukan pada Penerapan Klasifikasi Algoritma C4.5 dengan pengolahan datanya menggunakan metode Decision Tree untuk menentukan data stok material/barang dari target permintaan material gudang yang paling sering diminta dan dibutuhkan oleh user, juga dapat disimpulkan sebagai berikut:

 1. Permasalahan dalam menentukan data stok material/barang dapat diselesaikan menggunakan teknik data mining, yaitu dengan Algoritma C4.5 dan mendapatkan tingkat akurasi yang dihasilkan oleh sistem dengan metode decision tree pada aplikasi RapidMiner adalah 100%.

2. Dengan adanya penerapan data mining algoritma C4.5 diharapkan mampu memberikan solusi dalam menentukan permintaan barang yang paling dibutuhkan dengan permintaan yang banyak dari masing-masing user pada PT PLN (Persero) Area Kebon Jeruk.

PERTEMUAN 5 : TEXT PROCESSING

Didalam proses Text mining terdapat proses Text processing. Processing text merupakan tindakan menghilangkan karakter-karakter tertentu yang terkandung dalam dokumen, seperti koma, tanda petik dan lain-lain serta mengubah semua huruf kapital menjadi huruf kecil.

Beberapa tahapan-tahapan proses didalam text mining :

  1. Casefolding
  2. Tokenezing
  3. Filtering
  4. Stemming

Pertama-tama pada anaconda prompt Instalasi Library Sastrawi  menggunakan pip dengan perintah pip install Sastrawi  .

Library Sastrawi jdapat mendukung proses filtering. Kita dapat menggunakan stopWordRemoverFactory dari modul sastrawi.

1.Casefolding

Tahap casefolding adalah proses mengubah semua huruf dalam suatu dokumen menjadi huruf kecil (lowercase). Hanya huruf ‘a’ sampai ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Pada tahap ini tidak menggunakan external library apapun, kita bisa memanfaatkan modul yang tersedia di python. Salah satu contoh pentingnya penggunaan lower case adalah untuk mesin pencarian.

Beberapa cara yang dapat digunakan dalam tahap case folding :

  1. Mengubah teks menjadi lower case
  2. Menghapus angka
  3. Menghapus tanda baca
  4. Menghapus karakter kosong

2.Tekonizing

Tahap tokenizing adalah tahap pemotongan tiap kata dalam kalimat atau parsing dengan menggunakan spasi sebagai delimeter yang akan menghasilkan token berupa kata.

3.Filtering

Tahap filtering adalah tahap penyaringan kata yang didapat dari Tokenizing yang dianggap tidak penting atau tidak memiliki makna dalam proses Text mining yang disebut stopword. Stopword berisi kata-kata umum yang sering muncul dalam sebuah dokumen dalam jumlah banyak namun tidak memiliki kaitam dengan tema tertentu. Contoh stopwords yaitu “yang”, “dan”, “di”, “atau” dan lain-lain.

4.Stemming

Tahap Stemming adalah tahap mengembalikan kata-kata yang diperoleh dari hasil Filtering ke bentuk dasarnya, menghilangkan imbuhan awal (prefix) dan imbuhan akhir (sufix) sehingga didapat kata dasar. Contoh membaca kata dasarnya adalah baca.

PERTEMUAN 4 : Pengenalan Python

~ Kalkulator menggunakan python

~Variabel pada python bersifat sensitive case

Setiap kita ketik nama variabel, Python akan memanggil nilai yang disimpan oleh variabel tersebut.

~ Numpy

Numpy memiliki kegunaan untuk operasi vektor dan matriks. Fiturnya hampir sama dengan MATLAB dalam mengelola array dan array multidimensi. Numpy merupakan salah satu library yang digunakan oleh library lain seperti Scikit-Learn untuk keperluan analisis data.

Untuk memakai NumPy di program Python, kita bisa mengimpor package NumPy

Contoh array 1

  • Shape pada python digunakan untuk melihat ukuran matriks yang telah kita buat yaitu matriks dengan ordo 3×1
  • Dtype pada python digunakan untuk melihat tipe data yang digunakan dalam membuat  matriks,  pada contoh diatas yaitu mwnggunakan tipe data integer untuk bilangan bulat.

Contoh array

  • Shape pada python digunakan untuk melihat ukuran matriks yang telah kita buat pada contoh yang saya buat yaitu matriks dengan ordo 2×3
  • Dtype pada python digunakan untuk melihat tipe data yang digunakan dalam membuat  matriks,  pada contoh diatas yaitu mwnggunakan tipe data float.

~ Operasi penjumlahan, pengurangan, perkalian dan pembagian matriks


~ Penjumlahan matriks

~ Pengurangan Matriks

~ Perkalian Matriks

~ Pembagian Matriks

~ Transpose Matriks

~ Penjumlahan, pengurangan, perkalian dan pembagian matriks A transpose dan B transpose

16

PERTEMUAN 3 : MENCARI DATA SET

Breast Cancer Data Set Analysis

  1. Pertama tama, cari data di Uci Machine Learning Repository.

Uci Machine Learning Repository adalah kumpulan basis data, teori domain, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritma pembelajaran mesin. Dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa pascasarjana di UC Irvine.

GAMBAR 1

2. Pada Uci Machine Learning Repository ini sangat banyak jenis data set. Pilih salah satu data set yang ingin dianalisa. Disini saya mengambil data Breast Cancer ( kotak berwarna merah pada gambar 2).

3.Setelah di klik pada breast cancer maka akan muncul tampilan seperti pada gambar 3.

GAMBAR 3

4. Pada gambar dijelaskan secara rinci

Karakteristik kumpulan data  : multivariate

Karakteristik atribut: Kategorikal

Jenis karakteristik :

5. Kemudian dijelaskan pada gambar 4 tentang informasi kumpulan data dan informasi atribut.

GAMBAR 4
  • Informasi Kumpulan Data:

Data ini merupakan satu dari tiga domain yang disediakan oleh Oncology Institute yang telah berulang kali muncul dalam literatur pembelajaran mesin. Kumpulan data ini mencakup 201 instance dari satu kelas dan 85 instance dari kelas lain.

  • Informasi Atribut:

1) Kelas: peristiwa-perulangan, peristiwa-perulangan

2)usia: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.

3) menopause: lt40, ge40, premeno.

4. ukuran tumor: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-4, 50-54, 55-59.

5) inv-node: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39.

6) simpul-topi: ya, tidak.

7) deg-malig: 1, 2, 3.

8) payudara: kiri, kanan.

9) breast-quad: kiri-atas, kiri-rendah, kanan-atas, kanan-rendah, tengah.

10) irradiat: ya, tidak.

6. Untuk menganalisa datanya klik pada data set ( pada gambar 5 dikotak warna merah)

GAMBAR 5

Data yang akan muncul akan seperti ini

GAMBAR 6

7.Kemudian download breast-cancer.data dan breast-cancer.names

8.Rename breast-cancer.data menjadi breast-cancer.csv

GAMBAR 7
GAMBAR 8

9.Tampilan dari data tersebut akan seperti gambar 9

GAMBAR 9

10.Untuk melihat deskripsi dari data set tersebut dapat dilihat pada file dengan format .names ( breast-cancer.names)

GAMBAR 10

11.Pada file breast-cancer.names dijelaskan tentang deskripsi dari data set

  • Pada clas terdapat dua pilihan no-recurrence-events dan recurrence-events, jika no-recurrence-events artinya tidak ada kejadian berulang, jika recurrence-events artinya perulangan-peristiwa
  • Pada age menjelaskan tentang rentang umur penderita
  • menopause: lt40 (umur dibawah 40), ge40 (umur diatas 40), premeno ( mendekati menopause)
  • Pada tumor-size dijelaskan data ukuran tumor yaitu 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-4, 50-54, 55-59.
  •  inv-node: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39. N (node), kelenjar getah bening regional (kgb):
  • node-caps: ya, tidak.
  • deg-malig: 1, 2, 3. Metastatis, penyebaran jauh
  • Breast : menjelaskan bagian payudara yang terkena kanker atau mengalami rasasakit  kiri, kanan.
  • breast-quad : menjelaskan posisi rasa sakit pada payudara kiri-atas, kiri-rendah, kanan-atas, kanan-rendah, tengah.
  • Pada irradiat ada dua kondisi ya dan tidak.