PERTEMUAN 5 : TEXT PROCESSING

Didalam proses Text mining terdapat proses Text processing. Processing text merupakan tindakan menghilangkan karakter-karakter tertentu yang terkandung dalam dokumen, seperti koma, tanda petik dan lain-lain serta mengubah semua huruf kapital menjadi huruf kecil.

Beberapa tahapan-tahapan proses didalam text mining :

  1. Casefolding
  2. Tokenezing
  3. Filtering
  4. Stemming

Pertama-tama pada anaconda prompt Instalasi Library Sastrawi  menggunakan pip dengan perintah pip install Sastrawi  .

Library Sastrawi jdapat mendukung proses filtering. Kita dapat menggunakan stopWordRemoverFactory dari modul sastrawi.

1.Casefolding

Tahap casefolding adalah proses mengubah semua huruf dalam suatu dokumen menjadi huruf kecil (lowercase). Hanya huruf ‘a’ sampai ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Pada tahap ini tidak menggunakan external library apapun, kita bisa memanfaatkan modul yang tersedia di python. Salah satu contoh pentingnya penggunaan lower case adalah untuk mesin pencarian.

Beberapa cara yang dapat digunakan dalam tahap case folding :

  1. Mengubah teks menjadi lower case
  2. Menghapus angka
  3. Menghapus tanda baca
  4. Menghapus karakter kosong

2.Tekonizing

Tahap tokenizing adalah tahap pemotongan tiap kata dalam kalimat atau parsing dengan menggunakan spasi sebagai delimeter yang akan menghasilkan token berupa kata.

3.Filtering

Tahap filtering adalah tahap penyaringan kata yang didapat dari Tokenizing yang dianggap tidak penting atau tidak memiliki makna dalam proses Text mining yang disebut stopword. Stopword berisi kata-kata umum yang sering muncul dalam sebuah dokumen dalam jumlah banyak namun tidak memiliki kaitam dengan tema tertentu. Contoh stopwords yaitu “yang”, “dan”, “di”, “atau” dan lain-lain.

4.Stemming

Tahap Stemming adalah tahap mengembalikan kata-kata yang diperoleh dari hasil Filtering ke bentuk dasarnya, menghilangkan imbuhan awal (prefix) dan imbuhan akhir (sufix) sehingga didapat kata dasar. Contoh membaca kata dasarnya adalah baca.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s