Pages

Friday, February 14, 2014

Pre Prosessing Data Mining

Lanjut belajar data mining lebih dalam nih. ya semoga ga bosen ya ama teknologi data mining ini. Penasaran gak? bagaimana bentuk data yang akan dianalisis menggunakan teknik data mining? Sebelum memasuki proses data mining, ada yang namanya pre prosesing. Ada beberapa teknik yang digunakan untuk pre prosesing data, seperti reduce data, data cleaning dan lain-lain. kenapa diperlukan data pre-prosesing? karena biasanya sih data yang akan dianalisis menggunakan teknik data mining memiliki karakteristik: incomplete, artinya data-data yang memiliki atribut tidak lengkap, noisy, artinya data masih mengandung error atau outlier values, kemudian ada karakteristik inconsistent, yang artinya masih terdapat perbedaan pengkodean yang tidak seragam, nilai pada tabel A tidak sama pada tabel B misalnya.



sumber gambar : http://www.c3dmw.com/IRDC3DMW/DataMining.jsp

Nah sebelum proses analisis itu diperlukan yang namanya preprosesing data. preprosesing data diperlukan karena jenis-jenis data yang akan diolah kebanyakan juga memiliki kerusakan data seperti yang disebutkan tadi,ada data yang incomplete, noisy, dan inconsistent.  Agar preprosesing data lebih sempurna, penting untuk memiliki gambaran dari keseluruhan data. Nah, ada nih teknik yang bisa digunakan, yaitu teknik desciptive data summarization. Teknik ini dapat digunakan untuk mengidentifikasi properti dari data dan noise atau outlier. Dengan teknik ini, kita bisa menentukan karakteristik data melalui 2 cara yaitu Measuring the Central Tendency dan Measuring the Dispersion of Data. Untuk measuring the central tendency dapat meliputi mean, median, mode, dan midrange. Sedangkan teknik measuring the dispersion of data meliputi quartilisasi, interquartile range dan varian.

Sesudah itu dilakukan proses data cleaning, rutinitas ini berfungsi untuk mengisi data atau nilai-nilai yang hilang, mengurangi noise ketika sedang dilakukan identifying outliers, dan mengoreksi ketidak-konsistenan data. Noisy Data adalah error acak atau error yang bervariasi pada suatu variabel. Ada beberapa cara untuk mengurangi noisy data, yaitu binning, regresi dan clustering. Metode binning digunakan untuk smoothing nilai data. Regresi artinya data dapat dismoothing oleh fitting data kepada fungsi-fungsi tertentu. Clustering artinya pembagian data kedalam grup-grup sesuai dengan nilai-nilai yang sama.

Selanjutnya dilakukan data integrasi dan transformasi. Data integrasi sendiri adalah menggabungkan data dari berbagai sumber ke dalam satu penyimpanan (data warehouse). Sedangkan data transformasi ya berarti data akan ditransformasikan atau diubah ke dalam bentuk yang dapat dihubungkan untuk penggunaan data mining. Teknik data transformasi antara lain adalah teknik smoothing, teknik ini yang tadi uda dibahas buat mengurangi noise, kemudian ada aggregasi, yaitu menggabungkan operasi-operasi tertentu yang mengaplikasikannya pada data. Generalisasi data, Normalisasi data, dan attibute construction.

Kemudian ada data reduction, karena data yang akan dianalisis menggunakan teknik data mining sangat besar dan komplek, maka diperlukan adanya data reduksi sehingga lebih fleksibel. Beberapa teknik yang bisa digunakan adalah Data cube aggregation, attribute subset selection, dimensionality reduction, numerosity reduction, discretization and concept hierarchy generation. 

Terakhir ada teknik data discretization yang bisa digunakan untuk me reduce angka dari nilai-nilai yang akan dianalisis untuk memberikan atribut selanjutnya oleh pembagian range atribut menjadi interval.
Larose (2005) membagi fungsi data mining menjadi 6, yaitu fungsi deskripsi, fungsi estimasi, fungsi prediksi, fungsi klasifikasi, fungsi pengelompokan (clustering), dan fungsi asosiasi. Sedangkan Berry & Browne (2006) mengelompokkan keenam fungsi di atas menjadi 2, yaitu: fungsi minor (fungsi tambahan) dan fungsi mayor (fungsi utama). Fungsi deskripsi, fungsi estimasi dan fungsi prediksi masuk ke fungsi minor, sedangkan fungsi klasifikasi, fungsi clustering dan fungsi asosiasi masuk ke kelompok fungsi mayor (utama).

Pengertian dari masing-masing fungsi tersebut perlu dijabarin dengan kata-kata gak ya? kayanya sedikit deskripsi aja ya. Jadi untuk fungsi deskripsi pada data mining artinya penggambaran kelompok berdasarkan atribut atau sifat, fungsi estimasi adalah memperkirakan data yang berbentuk numerik. Fungsi prediksi adalah untuk memperkirakan data yang berbentuk kategorial. Fungsi klasifikasi berupa pengelompokan yang memiliki kelas tujuan. Clustering berupa pengelompokan data berdasarkan data yang tidak memiliki kelas tujuan tertentu. Sedangkan asosiasi merupakan pencarian antar atribut.

Uda dulu ya, semoga bermanfaat.

tag: data mining, apakah itu data mining? , pengertian dan manfaat data mining, fungsi-fungsi data mining, pre prosessing data mining, langkah-langkah persiapan proses data mining, data preprocessing data mining, data pre-prosesing, preprosesing data.

No comments:

Post a Comment