Wednesday, January 18, 2012

Metodologi Data Mining


Metodologi Data Mining yang Populer
-------------------------------------------

Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

a. Aturan dan Pohon Keputusan

Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model.  Memberikan ilustrasi mengenai efek penerapan pemisahan, yang didasarkan pada nilai ambang tertentu, pada variable penghasilan (income) di himpunan data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan. Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum (misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai. Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan regresi. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan Regresi

Non-linier Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. menunjukkan tipe boundary keputusan non-linier yang mungkin dihasilkan oleh jaringan saraf . Metodologi regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk diinterpretasikan. Contoh boundary klasifikasi yang “dipelajari” pengklasifikasi non-linier4

c. Metodologi Berbasis-sampel

Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetangga terdekat, algoritma regresi dan system reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil. Boundary klasifikasi untuk pengklasifikasi tetangga-terdekat pada himpunan data peminjaman. Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-titik data.

d. Model Kebergantungan Grafik Probabilistik

Model grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain. Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik “dipelajari” secara langsung dari basis data.

e. Model Belajar Relasional

Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti  X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik. Beberapa contoh bidang-bidang bisnis yang telah berhasil menerapkan aplikasi data mining adalah: 
a) Perusahaan farmasi dapat menganalisis aktivitas penjualan terkininya dan menggunakan hasilnya untuk mentargetkan dokter - dokter yang berpotensi menggunakan produknya dan menentukan aktifitas pemasaran yang paling efektif untuk beberapa bulan mendatang.
b) Perusahaan kartu kredit dapat memanfaatkan data transaksi kustomer-kustomernya untuk merancang produk kredit baru yang akan menarik minat para kustomer  tersebut.
c) Perusahaan transportasi yang menyediakan berbagai jenis pelayanan. Data mining dapat digunakan untuk mengidentifikasi prospek-prospek pelayanan yang menjanjikan keuntungan.
d) Perusahaan produk makanan atau kebutuhan sehari-hari. Data mining dapat dimanfaatkan untuk meningkatkan penjualan produk ke para pengecer (retailer). Data kustomer, pengiriman, aktivitas kompetitor dapat digunakan untuk menganalisis sebab-sebab kustomer berpindah ke produk merek lain. Kemudian, hasilnya dapat digunakan untuk menyusun strategi pemasaran yang lebih efektif.

Walaupun telah banyak diaplikasikan di dunia bisnis dan mendatangkan profit, teknologi KDD dan Data Mining masih memiliki tantangan-tantangan yang harus diatasi. Riset untuk menyempurnakan KDD diperlukan antar lain untuk mengatasi :
a) Basisdata yang berukuran besar, dengan ratusan tabel, jutaan record dan berukuran sampai dengan multigigabyte.
b) Dimensi yang besar, basisdata tidak hanya memiliki jutaan rekord tetapi juga jumlah field (atribut, variabel) yang besar.
c) Data dan pengetahuan yang berubah terus sehingga pola-pola yang telah ditemukan sebelumnya menjadi tidak berlaku lagi.
d) Data yang hilang dan banyak salah, hal ini banyak terjadi pada basisdata.
e) Relasi antar-field basisdata yang kompleks. Saat ini data miningmasih dirancang untuk relasi yang cukup sederhana.
f) Integrasi dengan sistem lain. Sistem KDD standalone bisa jadi agak kurang bermanfaat. Integrasi yang dimaksud bisa terjadi dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta pencatat sensor waktu-nyata.

0 comments:

Post a Comment

Silahkan Tambahkan Komentar Anda dan Silahkan Tuliskan Yang anda ingin ketahui menengenai Topik Diatas.
Terimakasih