Analisis regresi terbagi menjadi dua yaitu regresi linier dan Nonlinier. Analisi regresi linear terdiri dari analisis regresi linear sederhana dan analisis regresi linear berganda. Perbedaan antar keduanya terletak pada jumlah variabel independennya. Regresi linear sederhana hanya memiliki satu variabel independen, sedangkan regresi linear berganda mempunyai banyak variabel independen. Analisis regresi Nonlinier adalah regresi eksponensial.
KRITERIA DATA REGRESI LINIER
Terdapat dua syarat yang harus dipenuhi oleh data dalam menggunakan analisis regresi linier yaitu:
Data
Data harus terdiri dari dua jenis variabel, yaitu dependen dan independen. Selain itu data berupa kuantitatif fan variabel berupa kategori, seperti SD, SMA, SMK, dll.
Asumsi
Setiap data diasumsikan variabel dependen terdistribusi secara normal. Selain itu, antara variabel dependen dan independen harus memiliki hubungan linier dengan observasi harus saling bebas.
REGRESI LINEAR SEDERHANA
Pengertian
Regresi linear sederhana adalah hubungan secara linear antara satu variabel independen (X) dengan variabel dependen (Y). Analisis ini digunakan untuk mengetahui arah hubungan antara variabel independen dengan variabel dependen apakah positif atau negatif serta untuk memprediksi nilai dari variabel dependen apabila nilai variabel independen mengalami kenaikan atau penurunan nilai. Data yang digunakan biasanya berskala interval atau rasio.
Rumus dari dari analisis regresi linear sederhana adalah sebagai berikut:
Y’ = a + bX
Keterangan:
Y= subyek dalam variabel dependen yang diprediksi
a = harga Y ketika harga X= 0 (harga konstan)
b = angka arah atau koefisien regresi, yang menunjukkan angka peningkatan ataupun penurunan variabel dependen yang didasarkan pada perubahan variabel independen. Bila (+) arah garis naik, dan bila (-) maka arah garis turun.
X = subyek pada variabel independen yang mempunyai nilai tertentu.
Secara teknik harga b merupakan tangent dari perbandingan antara panjang garis variabel dependen, setelah persamaan regresi ditemukan.
Dimana :
R = koefisien korelasi product moment antara variabel variabel X dengan variabel Y
Sy = simpangan baku variabel Y
Sx = simpangan baku variabel X
Jika harga b merupakan fungsi dari koefisien korelasi. Bila koefisien korelasi tinggi, maka harga b juga besar, sebaliknya bila koefisien korelasi rendah maka harga b juga rendah (kecil). Selain itu bila koefisien korelasi negatif maka harga b juga negatif, dan sebaliknya bila koefisien korelasi positif maka harga b juga positif.
Selain itu harga a dan b dapat dicari dengan rumus berikut:
Uji Koefisien Regresi Sederhana (Uji t)
Uji ini digunakan untuk mengetahui apakah variabel independen (X) berpengaruh secara signifikan terhadap variabel dependen (Y). Signifikan berarti pengaruh yang terjadi dapat berlaku untuk populasi (dapat digeneralisasikan).
Rumus t hitung pada analisis regresi adalah sebagai berikut:
Langkah-langkah pengujian koefisien regresi sederhana adalah sebagai berikut:
Menentukan Hipotesis
Ho = Tidak ada pengaruh yang signifikan
Ha = ada pengaruh yang signifikan
Menentukan tingkat signifikansi
Biasanya menggunakan a = 5% atau 0,05
Menentukan t hitung
Menentukan t tabel
Membandingkan t hitung dan t table dengan kriteria
Ho diterima jika: t hitung ≥ t tabel Ho ditolak jika: t hitung < t tabel Ho diterima jika: -t hitung ≤ t tabel Ho di tolak jika: -t hitung > t tabel
Sebuah penelitian dilakukan untuk mengetahui apakah ada pengaruh makanan ikan (tiap hari dalam seminggu) [X1] dan panjang ikan (mm) [X2] terhadap berat ikan (kg) [Y] di Desa Tani Tambak Raya Sejahtera. Data sebagai berikut:
No
X1
X2
Y
1
8
125
37
2
10
137
41
3
7
100
34
4
12
122
39
5
9
129
40
6
10
128
42
7
7
98
38
8
8
103
42
9
11
130
40
10
8
95
36
11
10
115
41
12
8
105
38
Tentukan persamaan regresi ganda!
Buktikan apakah ada pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan di Desa Tani Tambak Raya Sejahtera!
Ha = terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan
Ho = Tidak terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan terhadap berat ikan
Ha: R ≠ 0
Ho: R = 0
No
X1
X2
Y
X1Y
X2Y
X1²
X2²
Y²
X1 X2
1
8
125
37
296
4625
64
15625
1369
1000
2
10
137
41
410
5617
100
18769
1681
1370
3
7
100
34
238
3400
49
10000
1156
700
4
12
122
39
468
4758
144
14884
1521
1464
5
9
129
40
360
5160
81
16641
1600
1161
6
10
128
42
420
5376
100
16384
1764
1280
7
7
98
38
266
3724
49
9604
1444
686
8
8
103
42
336
4326
64
10609
1764
824
9
11
130
40
440
5200
121
16900
1600
1430
10
8
95
36
288
3420
64
9025
1296
760
11
10
115
41
410
4715
100
13225
1681
1150
12
8
105
38
304
3990
64
11025
1444
840
𝝨
108
1387
468
4236
54311
1000
162691
18320
12665
Dari Tabel tersebut kita peroleh data sebagai berikut:
𝝨 X1 = 108
𝝨 X2 = 1387
𝝨 Y = 468
𝝨 X1Y = 4236
𝝨 X2Y = 54311
𝝨 X1² = 1000
𝝨 X2² = 162691
𝝨 Y²= 18320
𝝨X1 X2 = 212665
n = 12
Sebelum memasukan data tersebut ke persamaan b1, b2, dan a kita gunakan metode skor deviasi untuk menyederhanakan data tersebut. Metode ini menggunakan persamaan
Jadi persamaan regresi gandanya Y = 128,2 – 0,52 X1 – 0,17 X2
Untuk membandingkan Fhitung dengan Ftabel , sebelumnya akan dicari nilai korelasi ganda
Dengan taraf signifikan: 0,05
df pembilang (horizontal) = m = 2
df penyebut (vertikal) = n-m-1 = 9
Ftabel = 4,26
Kaidah pengujian signifikansi:
Jika Fhitung > Ftabel maka tolak Ho artinya signifikan.
Jika Fhitung < Ftabel ,terima Ho artinya tidak signifikan.
Fhitung > Ftabel = 11,74 4,26 berarti Ho ditolak dan Ha diterima jadi terdapat pengaruh yang signifikan antara makanan ikan dan panjang ikan tehadap berat ikan.
Golden rule (threshold) yang digunakan adalah : 60% atau barang yang dibeli paling sedikit 3.Untuk mempermudah, nama-nama item di Tabel 1, disingkat dengan diambil huruf awalnya saja, sebagai contoh : M = Mango O = Onion
Tabel 2. Transaksi yang dibeli (2)
Langkah ke-1 : Hitung banyaknya transaksi untuk setiap item. Hati-hati, untuk item O (Onion) dibeli sebanyak 4 biji, namun pembelian O hanya ada 3 transaksi.
Tabel 3. Banyaknya transaksi per item
Langkah ke-2 : Berdasarkan golden rule yang telah disebutkan di atas, saring data pada Tabel 3, hanya memilih item yang memiliki transaksi minimal sebanyak 3 transaksi. Item yang banyaknya transaksi kurang dari 3, dibuang. Hasilnya dapat dilihat
Tabel 4. Item yang paling sering dibeli
Langkah ke-3 : Buat pasangan item dimulai dari item pertama, yaitu MO, MK, ME, MY. Kemudian dilanjutkan dengan item kedua. Misalnya OK, OE, OY. Perhatikan, OM tidak dibuat karena OM = MO (pasangan yang dibuat dari item pertama).
Tabel 5. Pasangan Item
Langkah ke-4 : Hitung berapa kali suatu pasangan item dibeli bersamaan. Contohnya pasangan MO dibeli secara bersamaan dalam itemset {M, O, N, K, E, Y}. Pasangan MK dibeli bersamaan sebanyak 3 kali yaitu di dalam {M,O,N,K,E,Y}, {M,A,K,E}, dan {M,U,C, K, Y}. Hasilnya dapat dilihat pada Tabel 6.
Tabel 6. Banyaknya Transaksi Pasangan Item
Langkah ke-5 : Gunakan golden rule, hapus semua pasangan item yang banyaknya transaksi kurang dari tiga. Hasilnya adalah pada Tabel 7.
Tabel 7. Transaksi Pasangan Item yang Terbanyak
Langkah ke-6 : Buat pasangan tiga item dengan aturan menggunakan pasangan item pada Tabel 7 yang memiliki huruf awal yang sama yaitu :
• OK dan OE, menjadi OKE • KE dan KY, menjadi KEY
Kemudian hitung ada beberapa banyaknya transaksi dari pasangan tiga item berdasarkan Tabel 3. Hasilnya dapat dilihat pada Tabel 8.
Tabel 8. Banyaknya Transaki 3 Pasang Item
Dalam langkah ini, misalkan ada tiga pasangan item ABC, ABD, ACD, ACE, BCD dan akan dibuatkan pasangan 4 item, carilah 2 huruf awal yang sama. Contoh :
• ABC dan ABD, menjadi ABCD • ACD dan ACE, menjadi ACDE
Dan seterusnya. Secara umum, carilah pasangan item yang huruf (item) terakhirnya berbeda.
Langkah ke-7 : Gunakan lagi golden rule, dengan membuang pasangan tiga item yang banyaknya transaksi kurang dari 3. Hasilnya tinggal OKE karena KEY hanya dibeli bersamaan dua kali.
Kesimpulan : Tiga item yang sering dibeli bersamaan adalah O, K, dan E.
Untuk mengetahui tingkat keyakinan (confidence), frequent itemset (yaitu {O, K, E}) dapat digunakan untuk mencari aturan-aturan asosiasi antar item di dalam frequent itemset tersebut. Caranya adalah : 1. Itemset dibuatkan himpunan bagiannya. Hasilnya seperti pada contoh di bawah : • {O} • {K} • {E} • {O, K} • {K, E} • {O, E}
2. Cari asosiasi pada semua himpunan bagian yang telah dibuat, misal : {O} => {K, E} artinya : jika O dibeli, bagaimana kemungkinan K dan E akan dibeli pada transaksi yang sama. O dibeli pada 3 transaksi dan di dalam 3 transaksi tersebut, K dan E juga dibeli. Maka keyakinannya adalah :
{O} => {K, E} : keyakinannya adalah 3/3 x 100% = 100%. {K} => {O,E} : keyakinannya adalah 3/5 x 100% = 60% {E} => {O,K} : keyakinannya adalah 3/4 x 100% = 75% {K,E} => {O} : keyakinannya adalah 3/3 x 100% = 100% {O,E} => {K} : keyakinannya adalah 3/3 x 100% = 100% {O,K} => {E} : keyakinannya adalah 3/4 x 100% = 100%
Algoritma apriori merupakan salah satu algoritma klasik data mining. Algoritma apriori digunakan agar komputer dapat mempelajari aturan asosiasi, mencari pola hubungan antar satu atau lebih item dalam suatu dataset.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} -> {susu} (support = 40%, confidence = 50%)
Yang artinya : “Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”
Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).
Tetapi di lain pihak Apriori memiliki kelemahan karena harus melakukan scan database setiap kali iterasi, sehingga waktu yang diperlukan bertambah dengan makin banyak iterasi. Masalah ini yang dipecahkan oleh algoritma-algoritma baru seperti FP-growth.
Contoh Pemakaian Hasil dari Mempelajari Aturan Asosiasi
Meletakkan barang-barang yang sering dibeli bersamaan dengan posisi berdekatan atau mudah dijangkau sehingga diharapkan pembeli membeli barang lebih banyak. Cara ini dikembangkan oleh Wal-Mart yang merupakan salah satu pasar swalayan populer di Amerika. Saat itu Wal-Mart menganalisis data yang dimilikinya, dan menemukan bahwa pada hari Jumat sore, pembeli laki-laki yang membeli popok, ternyata cenderung membeli bir. Dari hasil temuan tersebut, Wal-Mart menempatkan bir di dekat tempat penjualan popok, dan alhasil penjualan bir meningkat. Kasus ini menjadi terkenal, karena sebelumnya banyak yang tidak menduga akan ampuhnya data mining.
Amazon.com, mengembangkan perekomendasi (recommender), yaitu sebuah program untuk merekomendasikan barang-barang lain kepada pembeli pada saat pembeli melakukan browsing atau membeli suatu barang berdasarkan tingkat keyakinan (confidence).
Langkah atau Cara Kerja Apriori
Tentukan minimum support.
Iterasi 1 : hitung item-item dari support(transaksi yang memuat seluruh item) dengan men-scan database untuk 1-itemset, setelah 1-itemset didapatkan, dari 1-itemset apakah diatas minimum support, apabila telah memenuhi minimum support, 1-itemset tersebut akan menjadi pola frequent tinggi.
Iterasi 2 : untuk mendapatkan 2-itemset, harus dilakukan kombinasi dari k-itemset sebelumnya, kemudian scan database lagi untuk hitung item-item yang memuat support. itemset yang memenuhi minimum support akan dipilih sebagai pola frequent tinggi dari kandidat.
Tetapkan nilai k-itemset dari support yang telah memenuhi minimum support dari k-itemset.
Lakukan proses untuk iterasi selanjutnya hingga tidak ada lagi k-itemset yang memenuhi minimum support.
Formula Pencarian Nilai Support & Confidence
Nilai support sebuah item diperoleh dengan rumus berikut:
Sedangkan nilai support dari 2 item diperoleh dari rumus berikut:
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A -> B. Nilai confidence dari aturan A -> B diperoleh dari rumus berikut:
K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.
Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means merupakan salah satu metode data clustering non-hierarchical atau Partitional Clustering.
Dari banyak siswa diambil 12 siswa sebagai contoh untuk penerapan algoritma k-means dalam penjurusan siswa. Percobaan dilakukan dengan menggunakan parameter-parameter berikut:
Jumlah cluster : 2
Jumlah data : 12
Jumlah atribut : 8Berikut merupakan data yang digunakan untuk melakukan percobaan perhitungan manual.
NIS
Nama
Matematika
Fisika
Kimia
Biologi
Sejarah
Akuntansi
Sosiologi
Geografi
2012173
Afgansyah
79
75
75
85
76
78
76
80
2012174
Denny Sumargo
84
76
79
77
76
77
75
81
2012175
Lina Nur Aini
77
84
78
85
92
89
77
82
2012176
Ananda Anugrah
78
86
84
77
78
77
75
75
2012177
Putri Khadijah
82
82
81
91
90
82
79
91
2012178
Ika Inayah
75
75
70
82
75
75
79
75
2012179
Wa Ode Sofia Z.
77
75
75
89
80
80
75
75
2012180
Budy Santoso
77
76
70
77
77
80
75
80
2012181
Andi Eka Murti
79
76
75
84
77
81
76
77
2012182
Ahsan Muhajir
80
75
75
75
75
78
77
79
2012183
Siswan Sumargo
76
71
75
75
77
81
79
84
2012184
Anis Fadilah
80
77
75
78
78
77
77
80
Iterasi ke-1
1. Penentuan pusat awal cluster
Untuk penentuan awal di asumsikan:
Diambil data ke- 2 sebagai pusat Cluster Ke-1: (84, 76, 79, 77, 76, 77, 75, 81)
Diambil data ke- 5 sebagai pusat Cluster Ke-2: (82, 82, 81, 91, 90, 82, 79, 91)
2. Perhitungan jarak pusat cluster
Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance, kemudian akan didapatkan matrik jarak yaitu C1 dan C2 sebagai berikut:
Rumus Euclidian distance
Matematika
Fisika
Kimia
Biologi
Sejarah
Akuntansi
Sosiologi
Geografi
C1
C2
Jarak Terpendek
79
75
75
85
76
78
76
80
10.44
21.726
10.44030651
84
76
79
77
76
77
75
81
0
24.021
0
77
84
78
85
92
89
77
82
24.145
14.56
14.56021978
78
86
84
77
78
77
75
75
14.177
26.038
14.17744688
82
82
81
91
90
82
79
91
24.021
0
0
75
75
70
82
75
75
79
75
15.652
28.81
15.65247584
77
75
75
89
80
80
75
75
16.462
22.136
16.46207763
77
76
70
77
77
80
75
80
11.874
26.23
11.87434209
79
76
75
84
77
81
76
77
11.136
22.472
11.13552873
80
75
75
75
75
78
77
79
6.8557
27.092
6.8556546
76
71
75
75
77
81
79
84
12.288
25.846
12.28820573
80
77
75
78
78
77
77
80
6.5574
22.978
6.557438524
3. Pengelompokkan data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group.
G1
No
C1
C2
1
1
0
2
1
0
3
0
1
4
1
0
5
0
1
6
1
0
7
1
0
8
1
0
9
1
0
10
1
0
11
1
0
12
1
0
4. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut:
Nama
Matematika
Fisika
Kimia
Biologi
Sejarah
Akuntansi
Sosiologi
Geografi
Cluster baru
Afgansyah
79
75
75
85
76
78
76
80
78.5
79.5
Denny Sumargo
84
76
79
77
76
77
75
81
76.2
83
Lina Nur Aini
77
84
78
85
92
89
77
82
75.3
79.5
Ananda Anugrah
78
86
84
77
78
77
75
75
79.9
88
Putri Khadijah
82
82
81
91
90
82
79
91
76.9
91
Ika Inayah
75
75
70
82
75
75
79
75
78.4
85.5
Wa Ode Sofia Z.
77
75
75
89
80
80
75
75
76.4
78
Budy Santoso
77
76
70
77
77
80
75
80
78.6
86.5
Andi Eka Murti
79
76
75
84
77
81
76
77
Ahsan Muhajir
80
75
75
75
75
78
77
79
Siswan Sumargo
76
71
75
75
77
81
79
84
Anis Fadilah
80
77
75
78
78
77
77
80
Iterasi Ke-25. Ulangi langkah ke 2 (kedua) hingga posisi data tidak mengalami perubahan.
Cluster baru yang ke-1
78.5
76.2
75.3
79.9
76.9
78.4
76.4
78.6
Cluster baru yang ke-2
79.5
83
79.5
88
91
85.5
78
86.5
Matematika
Fisika
Kimia
Biologi
Sejarah
Akuntansi
Sosiologi
Geografi
C1
C2
Jarak Terpendek
79
75
75
85
76
78
76
80
5.557
20.518
5.556977596
84
76
79
77
76
77
75
81
7.9297
22.956
7.929691041
77
84
78
85
92
89
77
82
21.182
7.2801
7.280109889
78
86
84
77
78
77
75
75
14.088
23.13
14.08829301
82
82
81
91
90
82
79
91
23.381
7.2801
7.280109889
75
75
70
82
75
75
79
75
9.0044
26.646
9.004443348
77
75
75
89
80
80
75
75
10.662
19.596
10.66208235
77
76
70
77
77
80
75
80
6.729
23.324
6.729041537
79
76
75
84
77
81
76
77
5.1653
19.9
5.165268628
80
75
75
75
75
78
77
79
5.6639
24.96
5.663920903
76
71
75
75
77
81
79
84
10.004
23.854
10.0039992
80
77
75
78
78
77
77
80
3.4756
21
3.475629439
Langkah selanjutnya sama dengan langkah pada nomor 3 jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
G2
No
C1
C2
1
1
0
2
1
0
3
0
1
4
1
0
5
0
1
6
1
0
7
1
0
8
1
0
9
1
0
10
1
0
11
1
0
12
1
0
Karena G2 = G1 memiliki anggota yang sama maka tidak perlu dilakukan iterasi/perulangan lagi. Hasil clustering telah mencapai stabil dan konvergen.
Contoh Kasus dengan Algoritma K-Medoids
Diketahui sepuluh data dengan k = 2
No
X1
X2
1
2
6
2
3
4
3
3
8
4
4
7
5
6
2
6
6
4
7
7
3
8
7
4
9
8
5
10
7
6
Langkah 1
Data Objek
Cost
1
3
4
2
6
3
3
3
4
3
8
4
4
3
4
4
7
4
5
3
4
6
2
5
6
3
4
6
4
3
7
3
4
7
3
5
9
3
4
8
5
6
10
3
4
7
6
6
Misalkan kita asumsikan
Jadi C1 dan C2 dipilih sebagai medoids.Hitung jarak untuk menghubungkan setiap objek data yang terdekat dengan. Nilai yang terdekat dengan medoids dapat dilihat pada tabel.
Data Objek
Cost
1
3
4
2
6
3
3
3
4
3
8
4
4
3
4
4
7
4
5
3
4
6
2
5
6
3
4
6
4
3
7
3
4
7
3
5
9
3
4
8
5
6
10
3
4
7
6
6
Data Objek
Cost
1
7
4
2
6
7
3
7
4
3
8
8
4
7
4
4
7
6
5
7
4
6
2
3
6
7
4
6
4
1
7
7
4
7
3
1
9
7
4
8
5
2
10
7
4
7
6
2
Sehingga clusternya menjadi:
Langkah 2 Pilih satu cluster yang bukan medoids misalkan
Jadi sekarang medoidnya adalah
jika C1 dan 0′ adalah medoid baru, maka hitung totalnya menggunakan rumus pada langkah 1
Data Objek
Cost
1
3
4
2
6
3
3
3
4
3
8
4
4
3
4
4
7
4
5
3
4
6
2
5
6
3
4
6
4
3
7
3
4
7
4
4
9
3
4
8
5
6
10
3
4
7
6
6
Data Objek
Cost
1
7
3
2
6
8
3
7
3
3
8
9
4
7
3
4
7
7
5
7
3
6
2
2
6
7
3
6
4
2
7
7
3
7
4
1
9
7
3
8
5
3
10
7
3
7
6
3
Sehingga total costnya
Karena Total cost baru > Total cost awal, maka tidak terjadi pertukaran posisi.
K-nearest neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu data berdasarkan data pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya (nearest neighbors). Dengan k merupakan banyaknya tetangga terdekat.
Cara Kerja Algoritma K-Nearest Neighbors (KNN)
K-nearest neighbors melakukan klasifikasi dengan proyeksi data pembelajaran pada ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data pembelajaran. Setiap data pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.
Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak yang telah memuat titik-titik c data pembelajaran. Proses klasifikasi dilakukan dengan mencari titik c terdekat dari c-baru (nearest neighbor). Teknik pencarian tetangga terdekat yang umum dilakukan dengan menggunakan formula jarak euclidean. Berikut beberapa formula yang digunakan dalam algoritma knn.
Euclidean Distance
Jarak Euclidean adalah formula untuk mencari jarak antara 2 titik dalam ruang dua dimensi.
Hamming Distance
Jarak Hamming adalah cara mencari jarak antar 2 titik yang dihitung dengan panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode biner.
Manhattan Distance
Manhattan Distance atau Taxicab Geometri adalah formula untuk mencari jarak d antar 2 vektor p,q pada ruang dimensi n.
Minkowski Distance
Minkowski distance adalah formula pengukuran antar 2 titik pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi euclidean distance dan mahattan distance.
Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.
Banyaknya k Tetangga Terdekat
Untuk menggunakan algoritma k nearest neighbors, perlu ditentukan banyaknya k tetangga terdekat yang digunakan untuk melakukan klasifikasi data baru. Banyaknya k, sebaiknya merupakan angka ganjil, misalnya k = 1, 2, 3, dan seterusnya. Penentuan nilai k dipertimbangkan berdasarkan banyaknya data yang ada dan ukuran dimensi yang dibentuk oleh data. Semakin banyak data yang ada, angka k yang dipilih sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka k yang dipilih sebaiknya semakin tinggi.
Algoritma K-Nearest Neighbors
Tentukan k bilangan bulat positif berdasarkan ketersediaan data pembelajaran.
Pilih tetangga terdekat dari data baru sebanyak k.
Tentukan klasifikasi paling umum pada langkah (ii), dengan menggunakan frekuensi terbanyak.
Keluaran klasifikasi dari data sampel baru.
Contoh soal Perhitungan KNN
Diberikan data Training berua dua atribut Bad dan Good untuk mengklasiikasikan sebuah data apakah tergolong Bad atau Good , berikut ini adalah contoh datanya :
Contoh data trainingContoh data training
Langkah penyelesaian
Kita tentukan parameter K. Misalnya kita buat jumlah tertangga terdekat K = 3.
1 kita hitung jarak antara data baru dengan semua data training. Kita menggunakan Euclidean Distance. Kita hitung seperti pada table berikut :
Perhitungan jarak dengan euclidean distance
2 kita urutkan jarak dari data baru dengan data training dan menentukan tetangga terdekat berdasarkan jarak minimum K.
pengurutan jarak terdekat data baru dengan data training
3 Dari kolom 4 (urutan jarak) kita mengurutkan dari yang terdekat ke terjauh antara jarak data baru dengan data training. ada 2 jarak yang sama (yaitu 4) pada data baris 2 dan baris 6, sehingga memiliki urutan yang sama. Pada kolom 5 (Apakah termasuk 3-NN?) maksudnya adalah K-NN menjadi 3-NN , karena nilai K ditentukan sama dengan 3.
4 tentukan kategori dari tetangga terdekat. Kita perhatikan baris 3, 4, dan 5 pada gambar sebelumnya (diatas). Kategori Ya diambil jika nilai K<=3. Jadi baris 3, 4, dan 5 termasuk kategori Ya dan sisanya Tidak.
penentuan kategori yang termasuk K=3
Kategori ya untuk K-NN pada kolom 6, mencakup baris 3,4, dan 5. Kita berikan kategori berdasarkan tabel awal. baris 3 memiliki kategori Bad, dan 4,5 memiliki kategori Good.
5 Gunakan kategori mayoritas yang sederhana dari tetangga yang terdekat tersebut sebagai nilai prediksi data yang baru.
Data yang kita miliki pada baris 3, 4 dan 5 kita punya 2 kategori Good dan 1 kategori Bad. Dari jumlah mayoritas (Good > Bad) tersebut kita simpulkan bahwa data baru (X=3 dan Y=5) termasuk dalam kategori Good.
Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data (Sunjana, 2010).
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat oleh Quinlan (Quinlan, 1993). Beberapa pengembangan yang dilakukan pada C4.5 antara lain adalah : bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.
1.1. Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya. Teknik klasifikasi terbagi menjadi beberapa teknik yang diantaranya adalah Pohon Keputusan (Decision Tree).
1.2. Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.
Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).
1.3. Algoritma C4.5
Berikut ini algoritma dasar dari C4.5: Input : sampel training, label training, atribut Output : pohon keputusan
Membuat simpul akar untuk pohon yang dibuat
Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training
Untuk yang lain, Mulai
A —— atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
Atribut keputusan untuk simpul akar —– A
Untuk setiap nilai, vi, yang mungkin untuk A
Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
Jika sampel Svi kosong
Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training
Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])
Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Craw 2005).
Pilih atribut sebagai akar
Buat cabang untuk masing-masing nilai
Bagi kasus dalam cabang
Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
1.3.1 Gain
Konsep Gain
Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap output data S.
Perolehan informasi didapat dari output data atau variable dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A).
1.3.2. Entropy
Konsep Entropy :
Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sampel S.
Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Entropy digunakan untuk mengukur ketidakaslian S.
1.3.3. Information Gain
Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana, 2010). Dalam prosesnya perhitungan gain bisa terjadi atau tidak suatu missing value.
1.4. Prinsip Kerja
Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:
Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon keputusan adalah mengkontruksi struktur data pohon yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki kelas. C4.5 melakukan konstruksi pohon keputusan dengan metode divide and conquer. Pada awalnya hanya dibuat node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan lagi sampai terbentuk daun-daun.
Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari pohon keputusan akan membentuk suatu kondisi dalam bentuk if-then. Aturan-aturan ini didapat dengan cara menelusuri pohon keputusan dari akar sampai daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi atau suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu then.
Contoh
Langkah 1
Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY, dan WINDY.
Setelah itu lakukan perhitungan Gain untuk setiap atribut.
Hasil perhitungan ditunjukan di bawah ini.
Perhitungan Node 1
Cara Perhitungan Node 1 (1)
Cara Perhitungan Node 1 (2)
Cara Perhitungan Node 1 (3)
Cara Perhitungan Node 1 (3)
Dari hasil diketahui bahwa atribut dengan gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Sehingga HUMIDITY dapat menjadi node akar.
Ada dua nilai atibut dari HUMIDITY, yaitu HIGH dan NORMAL.
Nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Tetapi untuk nilai HIGH masih perlu dilakukan perhitungan lagi.
Langkah 2
Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No.
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY, yang dapat menjadi node akar dari nilai atribut HIGH.
Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.
Perhitungan Node 1.1
Cara Perhitungan Node 1.1 (1)
Atribut dengan Gain tertinggi adalah OUTLOOK, yaitu sebesar 0.6995.
Sehingga OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH.
Ada tiga nilai dari atribut OUTLOOK yaitu CLOUDY, RAINY dan SUNNY.
– CLOUDY => klasifikasi kasus 1 (Yes) – SUNNY => klasifikasi kasus 1 (No) – RAINY => masih perlu perhitungan lagi. Cara Perhitungan Node 1.1 (2)
Langkah 3
Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No.
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut TEMPERATURE dan WINDY, yang dapat menjadi node cabang dari nilai atribut RAINY.
Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.
Perhitungan Node 1.1.2
Cara Perhitungan Node 1.1.2 (1)
Atribut dengan Gain tertinggi adalah WINDY, yaitu sebesar 1.
Sehingga WINDY dapat menjadi node cabang dari nilai atribut RAINY.
Ada dua nilai dari atribut WINDY, yaitu FALSE dan TRUE.
– Nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 (Yes). – Nilai atribut TRUE sudah mengklasifikasikan kasus menjadi 1 (No). – Sehingga tidak perlu dilakukan perhitungan lagi. Cara Perhitungan Node 1.1.2 (2)
Perusahaan Listrik Negara (PLN) merupakan Perusahaan milik Negara yang seluruh kegiatannya dituntut lebih efektif dan efisien. Efisiensi kerja dapat mendukung tingkat pelayanan mutu, sehingga dalam pengolahan datanya dapat membantu mengatasi permasalahan yang ada mengenai pengontrolan stok material gudang dan permintaan pemasangan listrik baru dapat dengan cepat, sigap dan memberikan informasi dengan stok material yang memadai, serta kondisi material yang memiliki keadaan baik serta cukup. Permintaan pemasangan listrik baru dan penanganan gangguan pada pemakaian dan sarana prasarana dari aliran listrik akan dapat terpenuhi tanpa adanya delay yang disebabkan tidak adanya stok material yang sesuai dengan permintaan kebutuhan materialnya. Seiring dengan berkembangnya tekhnologi informasi dan komunikasi, persaingan bisnis maupun juga pada persaingan bisnis dalam dunia industri yang semakin ketat. Jumlah perusahaan semakin banyak dan terus melakukan usaha dan strategi dalam mempertahankan bisnisnya tidak lepas dari peran perusahaan dalam mempertahankan bisnisnya. Kesuksesan perusahaan dalam mempertahankan bisnisnya tidak lepas dari peran perusahaan tersebut dalam mengelola dan tentu saja dapat menjaga kelangsungan bisnisnya dalam dunia industri saat ini. Inventory tersebut bisa mengelola stok barang atau material di gudang yang nantinya akan ada banyak permintaan material yang dibutuhkan.
Dari hasil pengolahan data mentah dengan tahapan-tahapan sebelumnya, maka diperoleh data set dengan atribut yang digunakan dalam penentuan klasifikasi persediaan material gudang adalah Nama Material, Valution type, Kategori Material, fisik material dan target permintaan. Atribut tersebut juga digunakan perusahaan untuk menentukan barang/material gudang yang paling sering dipakai. Data yang sudah didapat telah di analisis bahwa data tersebut memilik 5 jenis material yang berjumlah “BANYAK” (mendapatkan permintaan pengadaan Material/barang) dan 9 jenis material yang berjumlah “SEDIKIT” (tidak mendapatkan permintaan pengadaan material/barang). Dibawah ini merupakan Data stok material/barang gudang yang berjumlah 14 jenis material.
No
Nama Barang
Satuan
Kategori Material
Valuation Type
Jumlah Barang
Fisik Material
Stok Out/ target permintaan
1
TRF DIS;;20kV/400V;3P;400 kVA;DYN5;OD
U
MDU
NORMAL
0
TIDAK ADA
BANYAK
2
CUB;N ISO;LBS MOTORIZE;24KV;630A; 16KA
SET
MDU
NORMAL
0
TIDAK ADA
BANYAK
3
LVSB;DIST;3P;400V;630 A;4LINE;OD
SET
MDU
NORMAL
4
ADA
SEDIKIT
4
CT;20kV;K;30-60/5- 5A;0.2;10VA;ID
BH
NON MDU
NORMAL
3
ADA
SEDIKIT
5
MTR;kWH E- PR;;1P;230V;5- 60A;1;;2W
BH
MDU
NORMAL
367
ADA
BANYAK
6
CABLE PWR;NA2XSEYBY;3X24 0mm2;20kV;UG
M
MDU
NORMAL
1,724
ADA
BANYAK
7
JOINT;1kV;CU-CU;16- 16mm2;;1P;PRHS
BH
MDU
BURSA
765
ADA
SEDIKIT
8
MCB;220/250V;1P;6A;5 0Hz;
BH
MDU
NORMAL
5
ADA
SEDIKIT
9
MCB;220/250V;1P;50A; 50Hz;
BH
MDU
HAPUS
1,549
ADA
SEDIKIT
10
BOX;APPMCCB80A+STR IP;ST1.5;1205X420X250
SET
MDU
NORMAL
1
ADA
SEDIKIT
11
UNIV ACC;KUNCI GEMBOK MASTER
BH
NON MDU
NORMAL
90
ADA
SEDIKIT
12
CABLE PWR ACC;STAINLEES STEEL STRIP SSS
M
NON MDU
NORMAL
1,522
ADA
SEDIKIT
13
MTR ACC;MODEM GSM 12V DC DIGITAL
BH
NON MDU
NORMAL
0
TIDAK ADA
SEDIKIT
14
POLE;STEEL;220V;CIRCL ;9m;200daN;;
BTG
MDU
NORMAL
11
ADA
BANYAK
Perhitungan Metode Decision Tree dan Algoritma C4.5
Perhitungan Metode Decision Tree dan Algoritma C4.5 Dari data tabel data sampel stok material/barang, maka dilakukan perhitungan menggunakan metode decision tree dan Algoritma C4.5, agar di dapat penentuan target permintaan
material gudang yang paling sering diminta dan dibutuhkan oleh user, berdasarkan data tabel tarikan output sistem ERP/SAP logistik dengan membuat tabel percabangan. Langkah-langkah dalam metode algoritma C4.5 yang perlu dilakukan antara lain :
Pilih atribut sebagai akar
Buat cabang untuk masing-masing nilai
Bagi kasus dalam cabang
Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Adapun calon percabangan yang mungkin terjadi dari tabel pertama Tabel 4.2 Calon Percabangan
Kategori Barang
Valution Type
Fisik Barang
MDU
NORMAL
ADA
NON MDU
BURSA
TIDAK ADA
HAPUS
Berikut membuat tabel untuk menghitung frekwensi yang muncul dari setiap hasil produk berikut dengan proporsinya serta entropy-nya H(t).
Tabel 4.3 Frekuensi
Target Permintaan
Frekuensi
Pi
Log2 Pi
-Pi.log2Pi
BANYAK
5
0.357142857
−1.485426828
0.530509581
SEDIKIT
9
0.642857143
-0.637429920
0.409776377
Dalam penelitian ini eksperimen dan pengujian dilakukan dengan langkah- langkah sebagai berikut:
a. Entropy dan Information Gain, Tahap pertama yang dilakukan adalah menghitung nilai entropy dimana nilainya harus dihitung tiap atribut berdasarkan tiap kasus seluruh atribut dapat dilihat pada tabel IV.6 hasil dari perhitungan nilai gain dan entropy pada data stok material dari masing masing atribut ditunjukan pada tabel dibawah ini:
Tabel 4.4 Perhitungan Nilai Entropy dan Gain
Cabang
Jml Kasus (S)
Sedikit (S1)
Banyak (S2)
Entropy (Si)
GAIN
Kategori Barang
MDU
10
5
5
1
1.408571034
NON MDU
4
4
0
0
Valution Type
Normal
12
7
5
0.072659914
0.097796679
Bursa
1
1
0
0
Hapus
1
1
0
0
Fisik Barang
Ada
11
8
2
2.9188632449
−0.635519722
Tidak Ada
3
1
2
2.169925004
Penghitungan Entropy Kelayakan
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑−𝑝𝑖 ∗ log2 𝑝𝑖
𝑖=1
dengan :
S : Himpunan Kasus n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
dimana, perhitungan Node 1 (Root) dari entropy H(t) nya, adalah sebagai berikut :
Setelah nilai entropy total sudah diketahui, maka langkah selanjutnya adalah mencari nilai gain. Untuk mendapatkan gain tiap atribut, maka langkah selanjutnya dilakukan perhitungan, dengan langkah-langkah sebagai berikut :
Rumus penghitungan informasi Gain
Berfungsi untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada.
𝑛
(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) −∑ | S𝑖 | 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (S𝑖)
𝑖=1
| 𝑆
dengan :
S : Himpunan kasus A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Penghitungan informasi Gain kategori material/barang
Gain (S, Fisik Material) = Entropy S – (11/14) SAda– (3/14) STidak ada
= 2.122856748 – (11/14) x 2.9188632449 – (3/14) x 2.169925004
= 2.122856748 – 2.293392550 – 0.464983920
= −0.635519722
Tabel 4.12Entropy dan Information Gain
Cabang
Jml Kasus (S)
Sedikit (S1)
Banyak (S2)
Entropy (Si)
GAIN
Kategori
MDU
10
5
5
1
1.408571034
Barang
NON MDU
4
4
0
0
Valution Type
Normal
12
7
5
0.072659914
0.097796679
Bursa
1
1
0
0
Hapus
1
1
0
0
Fisik Barang
Ada
11
8
2
2.9188632449
−0.635519722
Tidak Ada
3
1
2
2.169925004
Berdasarkan hasil perhitungan Entropy dan information gain manual, tampak bahwa atribut kategori material/barang yang bisa dijadikan acuan dalam menyediakan prediksi terbaik dengan nilai gain tertinggi yaitu 1.408571034 sebagai target atribut kelas permintaan dari masing-masing user. Sebagai langkah berikutnya akan menjelaskan bahwa kriteria kategori material menjadi prioritas utama dalam menentukan hasil keputusan.
Atribut-atribut yang digunakan dalam penelitian ini adalah kategori material/barang, valuation type dan fisik material/barang, yang digunakan untuk menentukan pengklasifikasian kelas target permintan yang banyak, dan kelas target permintaan yang sedikit.
Implementasi decision tree dan C4.5 pada RapidMiner 7.2
RapidMiner 7.2 merupakan software tool Open Source untuk data mining. RapidMiner 7.2 menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Data stok material/barang yang diperoleh dari Bidang Konstruksi subbidang Logistik yang sudah dimiliki dan telah dianalisis
kemudian diolah menggunakan aplikasi RapidMiner 7.2 untuk mengetahui klasifikasi target permintaan material yang paling sering diminta oleh user pada bidang teknik pada PT PLN (Persero) Area Kebon Jeruk menggunakan Decision Tree. Menjalankan RapidMiner 7.2 pertama kali, jalankan RapidMiner 7.
KESIMPULAN
Adapun kesimpulan yang didapatkan dari proses perhitungan menggunakan metode algoritma C4.5 pada klasifikasi data barang yaitu :
1. Mampu mengklasifikasikan data dengan baik
2. Mampu menghasilkan perhitungan decision tree dengan metode C4.5 secara lengkap
3. Mampu menghasilkan perhitungan akurasi tertinggi
4. Mampu melakukan perhitungan data tunggal
Berdasarkan seluruh hasil tahapan perhitungan yang telah dilakukan pada Penerapan Klasifikasi Algoritma C4.5 dengan pengolahan datanya menggunakan metode Decision Tree untuk menentukan data stok material/barang dari target permintaan material gudang yang paling sering diminta dan dibutuhkan oleh user, juga dapat disimpulkan sebagai berikut:
1. Permasalahan dalam menentukan data stok material/barang dapat diselesaikan menggunakan teknik data mining, yaitu dengan Algoritma C4.5 dan mendapatkan tingkat akurasi yang dihasilkan oleh sistem dengan metode decision tree pada aplikasi RapidMiner adalah 100%.
2. Dengan adanya penerapan data mining algoritma C4.5 diharapkan mampu memberikan solusi dalam menentukan permintaan barang yang paling dibutuhkan dengan permintaan yang banyak dari masing-masing user pada PT PLN (Persero) Area Kebon Jeruk.
Didalam proses Text mining terdapat proses Text
processing. Processing text merupakan tindakan menghilangkan karakter-karakter
tertentu yang terkandung dalam dokumen, seperti koma, tanda petik dan lain-lain
serta mengubah semua huruf kapital menjadi huruf kecil.
Beberapa
tahapan-tahapan proses didalam text mining :
Casefolding
Tokenezing
Filtering
Stemming
Pertama-tama pada anaconda prompt Instalasi
Library Sastrawi menggunakan pip dengan
perintah pip install Sastrawi
.
Library Sastrawi jdapat mendukung proses filtering. Kita dapat menggunakan stopWordRemoverFactory dari modul sastrawi.
1.Casefolding
Tahap casefolding adalah proses mengubah semua huruf dalam
suatu dokumen menjadi huruf kecil (lowercase). Hanya huruf ‘a’ sampai ‘z’ yang
diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.
Pada tahap ini tidak menggunakan external library apapun, kita bisa memanfaatkan
modul yang tersedia di python. Salah satu contoh pentingnya penggunaan lower case adalah
untuk mesin pencarian.
Beberapa cara yang dapat
digunakan dalam tahap case folding :
Mengubah teks menjadi lower case
Menghapus angka
Menghapus tanda baca
Menghapus karakter kosong
2.Tekonizing
Tahap tokenizing adalah tahap pemotongan tiap kata dalam
kalimat atau parsing dengan menggunakan spasi sebagai delimeter yang akan
menghasilkan token berupa kata.
3.Filtering
Tahap filtering adalah tahap penyaringan kata yang didapat
dari Tokenizing yang dianggap tidak penting atau tidak memiliki makna dalam
proses Text mining yang disebut stopword. Stopword berisi kata-kata umum yang
sering muncul dalam sebuah dokumen dalam jumlah banyak namun tidak memiliki
kaitam dengan tema tertentu. Contoh stopwords yaitu “yang”, “dan”, “di”, “atau”
dan lain-lain.
4.Stemming
Tahap Stemming adalah tahap mengembalikan kata-kata yang
diperoleh dari hasil Filtering ke bentuk dasarnya, menghilangkan imbuhan awal
(prefix) dan imbuhan akhir (sufix) sehingga didapat kata dasar. Contoh membaca
kata dasarnya adalah baca.
Setiap kita ketik nama variabel, Python akan memanggil nilai yang disimpan oleh variabel tersebut.
~ Numpy
Numpy memiliki kegunaan untuk operasi vektor dan matriks. Fiturnya
hampir sama dengan MATLAB dalam mengelola array dan array multidimensi.
Numpy merupakan salah satu library yang digunakan oleh library lain
seperti Scikit-Learn untuk keperluan analisis data.
Untuk memakai NumPy di program Python, kita bisa mengimpor packageNumPy
Contoh array 1
Shape pada python digunakan
untuk melihat ukuran matriks yang telah kita buat yaitu matriks dengan ordo 3×1
Dtype pada python digunakan
untuk melihat tipe data yang digunakan dalam membuat matriks,
pada contoh diatas yaitu mwnggunakan tipe data integer untuk bilangan
bulat.
Contoh array
Shape pada python digunakan
untuk melihat ukuran matriks yang telah kita buat pada contoh yang saya buat
yaitu matriks dengan ordo 2×3
Dtype pada python digunakan
untuk melihat tipe data yang digunakan dalam membuat matriks,
pada contoh diatas yaitu mwnggunakan tipe data float.
~ Operasi penjumlahan, pengurangan, perkalian dan pembagian matriks
~ Penjumlahan matriks
~ Pengurangan Matriks
~ Perkalian Matriks
~ Pembagian Matriks
~ Transpose Matriks
~ Penjumlahan, pengurangan, perkalian dan pembagian matriks A transpose dan B transpose
Pertama tama, cari data di Uci Machine Learning Repository.
Uci Machine Learning Repository adalah kumpulan basis data, teori domain, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritma pembelajaran mesin. Dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa pascasarjana di UC Irvine.
GAMBAR 1
2. Pada Uci Machine Learning Repository ini sangat banyak jenis data set. Pilih salah satu data set yang ingin dianalisa. Disini saya mengambil data Breast Cancer ( kotak berwarna merah pada gambar 2).
GAMBAR 2
3.Setelah di klik pada breast cancer maka akan muncul tampilan seperti pada gambar 3.
GAMBAR 3
4. Pada gambar dijelaskan secara rinci
Karakteristik kumpulan data
: multivariate
Karakteristik atribut: Kategorikal
Jenis karakteristik :
5. Kemudian dijelaskan pada gambar 4 tentang informasi kumpulan data dan informasi atribut.
GAMBAR 4
Informasi Kumpulan Data:
Data ini merupakan
satu dari tiga domain yang disediakan oleh Oncology Institute yang telah
berulang kali muncul dalam literatur pembelajaran mesin. Kumpulan data ini
mencakup 201 instance dari satu kelas dan 85 instance dari kelas lain.
9) breast-quad: kiri-atas, kiri-rendah, kanan-atas, kanan-rendah, tengah.
10) irradiat: ya, tidak.
6. Untuk menganalisa datanya klik pada data set ( pada gambar 5 dikotak warna merah)
GAMBAR 5
Data yang akan muncul akan seperti ini
GAMBAR 6
7.Kemudian download breast-cancer.data dan breast-cancer.names
8.Rename breast-cancer.data menjadi breast-cancer.csv
GAMBAR 7GAMBAR 8
9.Tampilan dari data tersebut akan seperti gambar 9
GAMBAR 9
10.Untuk melihat deskripsi dari data set tersebut dapat dilihat pada file dengan format .names ( breast-cancer.names)
GAMBAR 10
11.Pada file breast-cancer.names dijelaskan tentang deskripsi dari data set
Pada clas terdapat dua pilihan no-recurrence-events
dan recurrence-events, jika no-recurrence-events artinya tidak ada kejadian
berulang, jika recurrence-events artinya perulangan-peristiwa
Pada age menjelaskan tentang
rentang umur penderita