PERTEMUAN 3 : MENCARI DATA SET

Breast Cancer Data Set Analysis

  1. Pertama tama, cari data di Uci Machine Learning Repository.

Uci Machine Learning Repository adalah kumpulan basis data, teori domain, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritma pembelajaran mesin. Dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa pascasarjana di UC Irvine.

GAMBAR 1

2. Pada Uci Machine Learning Repository ini sangat banyak jenis data set. Pilih salah satu data set yang ingin dianalisa. Disini saya mengambil data Breast Cancer ( kotak berwarna merah pada gambar 2).

3.Setelah di klik pada breast cancer maka akan muncul tampilan seperti pada gambar 3.

GAMBAR 3

4. Pada gambar dijelaskan secara rinci

Karakteristik kumpulan data  : multivariate

Karakteristik atribut: Kategorikal

Jenis karakteristik :

5. Kemudian dijelaskan pada gambar 4 tentang informasi kumpulan data dan informasi atribut.

GAMBAR 4
  • Informasi Kumpulan Data:

Data ini merupakan satu dari tiga domain yang disediakan oleh Oncology Institute yang telah berulang kali muncul dalam literatur pembelajaran mesin. Kumpulan data ini mencakup 201 instance dari satu kelas dan 85 instance dari kelas lain.

  • Informasi Atribut:

1) Kelas: peristiwa-perulangan, peristiwa-perulangan

2)usia: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.

3) menopause: lt40, ge40, premeno.

4. ukuran tumor: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-4, 50-54, 55-59.

5) inv-node: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39.

6) simpul-topi: ya, tidak.

7) deg-malig: 1, 2, 3.

8) payudara: kiri, kanan.

9) breast-quad: kiri-atas, kiri-rendah, kanan-atas, kanan-rendah, tengah.

10) irradiat: ya, tidak.

6. Untuk menganalisa datanya klik pada data set ( pada gambar 5 dikotak warna merah)

GAMBAR 5

Data yang akan muncul akan seperti ini

GAMBAR 6

7.Kemudian download breast-cancer.data dan breast-cancer.names

8.Rename breast-cancer.data menjadi breast-cancer.csv

GAMBAR 7
GAMBAR 8

9.Tampilan dari data tersebut akan seperti gambar 9

GAMBAR 9

10.Untuk melihat deskripsi dari data set tersebut dapat dilihat pada file dengan format .names ( breast-cancer.names)

GAMBAR 10

11.Pada file breast-cancer.names dijelaskan tentang deskripsi dari data set

  • Pada clas terdapat dua pilihan no-recurrence-events dan recurrence-events, jika no-recurrence-events artinya tidak ada kejadian berulang, jika recurrence-events artinya perulangan-peristiwa
  • Pada age menjelaskan tentang rentang umur penderita
  • menopause: lt40 (umur dibawah 40), ge40 (umur diatas 40), premeno ( mendekati menopause)
  • Pada tumor-size dijelaskan data ukuran tumor yaitu 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-4, 50-54, 55-59.
  •  inv-node: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39. N (node), kelenjar getah bening regional (kgb):
  • node-caps: ya, tidak.
  • deg-malig: 1, 2, 3. Metastatis, penyebaran jauh
  • Breast : menjelaskan bagian payudara yang terkena kanker atau mengalami rasasakit  kiri, kanan.
  • breast-quad : menjelaskan posisi rasa sakit pada payudara kiri-atas, kiri-rendah, kanan-atas, kanan-rendah, tengah.
  • Pada irradiat ada dua kondisi ya dan tidak.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s