Wednesday, January 18, 2012

Metodologi Data Mining


Metodologi Data Mining yang Populer
-------------------------------------------

Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

a. Aturan dan Pohon Keputusan

Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model.  Memberikan ilustrasi mengenai efek penerapan pemisahan, yang didasarkan pada nilai ambang tertentu, pada variable penghasilan (income) di himpunan data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan. Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum (misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai. Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan regresi. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan Regresi

Non-linier Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. menunjukkan tipe boundary keputusan non-linier yang mungkin dihasilkan oleh jaringan saraf . Metodologi regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk diinterpretasikan. Contoh boundary klasifikasi yang “dipelajari” pengklasifikasi non-linier4

c. Metodologi Berbasis-sampel

Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetangga terdekat, algoritma regresi dan system reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil. Boundary klasifikasi untuk pengklasifikasi tetangga-terdekat pada himpunan data peminjaman. Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-titik data.

d. Model Kebergantungan Grafik Probabilistik

Model grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain. Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik “dipelajari” secara langsung dari basis data.

e. Model Belajar Relasional

Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti  X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik. Beberapa contoh bidang-bidang bisnis yang telah berhasil menerapkan aplikasi data mining adalah: 
a) Perusahaan farmasi dapat menganalisis aktivitas penjualan terkininya dan menggunakan hasilnya untuk mentargetkan dokter - dokter yang berpotensi menggunakan produknya dan menentukan aktifitas pemasaran yang paling efektif untuk beberapa bulan mendatang.
b) Perusahaan kartu kredit dapat memanfaatkan data transaksi kustomer-kustomernya untuk merancang produk kredit baru yang akan menarik minat para kustomer  tersebut.
c) Perusahaan transportasi yang menyediakan berbagai jenis pelayanan. Data mining dapat digunakan untuk mengidentifikasi prospek-prospek pelayanan yang menjanjikan keuntungan.
d) Perusahaan produk makanan atau kebutuhan sehari-hari. Data mining dapat dimanfaatkan untuk meningkatkan penjualan produk ke para pengecer (retailer). Data kustomer, pengiriman, aktivitas kompetitor dapat digunakan untuk menganalisis sebab-sebab kustomer berpindah ke produk merek lain. Kemudian, hasilnya dapat digunakan untuk menyusun strategi pemasaran yang lebih efektif.

Walaupun telah banyak diaplikasikan di dunia bisnis dan mendatangkan profit, teknologi KDD dan Data Mining masih memiliki tantangan-tantangan yang harus diatasi. Riset untuk menyempurnakan KDD diperlukan antar lain untuk mengatasi :
a) Basisdata yang berukuran besar, dengan ratusan tabel, jutaan record dan berukuran sampai dengan multigigabyte.
b) Dimensi yang besar, basisdata tidak hanya memiliki jutaan rekord tetapi juga jumlah field (atribut, variabel) yang besar.
c) Data dan pengetahuan yang berubah terus sehingga pola-pola yang telah ditemukan sebelumnya menjadi tidak berlaku lagi.
d) Data yang hilang dan banyak salah, hal ini banyak terjadi pada basisdata.
e) Relasi antar-field basisdata yang kompleks. Saat ini data miningmasih dirancang untuk relasi yang cukup sederhana.
f) Integrasi dengan sistem lain. Sistem KDD standalone bisa jadi agak kurang bermanfaat. Integrasi yang dimaksud bisa terjadi dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta pencatat sensor waktu-nyata.

Tuesday, January 17, 2012

DATA MINING Cont


Ruang Lingkup Data Mining
--------------------------------
Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas 
dan ukuran yang memadai.

Tugas Utama Data Mining
-----------------------------
Telah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar. Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan.

Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan.
Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksivolume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed),  prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.
Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori ataucluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasi yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).
Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.
Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabel variabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numeric.
Pendeteksian Perubahan dan Deviasi berfokus pada penemuanperubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

Proses Data Mining
----------------------
Proses Data Mining

Tujuan dari data mining itu sendiri adalah mencari data pada sebuah database / data warehouse, yang dapat meramalkan prosepek masa depan.
Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap :
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap diatas, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka.

Cara Kerja Data Mining
---------------------------
Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi?
Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya. Sebagai contoh di sini diambil pencarian solusi bisnis di bidang telekomunikasi. Ada beberapa perusahaan telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan langsung jarak jauh (SLJJ). Pihak manajemen dapat “menghubungi” calon-calon kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon khusus, dengan hasil yang kemungkinan besar kurang menggemberikan, atau dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di basis data perusahaan untuk membangun sebuah model. Perusahaan ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah penggunaan fasilitas kredit, dll. Masalahnya adalah penggunaan 
SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan membangun sebuah model.

Kesimpulan
-------------
Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka. Akan tetapi, agar teknologi data mining dan KDD ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat. Penyempurnaan di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.

DATA MINING


Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar.
Selain itu juga ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :

  • Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
  • Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. 
Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
  1. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
  2. Objek dari data mining adalah data yang berjumlah besar atau kompleks
  3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat.

Data mining untuk mengekstraksi pengetahuan secara otomatis dari data berukuran besar dengan cara mencari pola-pola menarik yang terkandung di dalam data tersebut. Data mining memiliki banyak fungsionalitas, antara lain pembuatan ringkasan data, analisis asosiasi antar data, klasifikasi data, 
prediksi, dan pengelompokan data. Setiap fungsionalitas akan menghasilkan pengetahuan atau pola yang berbeda satu sama lain.
Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas atau kategori dari objekobjek di dalam basisdata. 
Sebagai contoh :
  1. Klasifikasi dapat digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman. Model klasifikasi dibuat untuk memprediksi kelas ”aman” atau ”beresiko” untuk data permohonan pinjaman; ”beli” atau ”tidak”  untuk data pemasaran.
  2. Oleh manajer pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan membeli komputer baru, 
  3. Oleh periset di bidang medis untuk memprediksi jenis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu. ”pengobatan-1”, ”pengobatan-2”, atau ”pengobatan-3” untuk data medis. 

Model klasifikasi dibuat dengan cara menganalisis training data (terdiri dari objek-objek yang kelasnya sudah diketahui). Model yang dihasilkan kemudian akan digunakan untuk memprediksi kelas dari unknown data (terdiri dari objek-objek yang kelasnya belum diketahui). 
Model klasifikasi dapat digambarkan dalam beberapa bentuk, seperti aturan klasifikasi (IF-THEN), pohon keputusan, rumus matematika, atau jaringan saraf tiruan. 
Pohon keputusan banyak digunakan karena mudah dipahami oleh manusia serta mampu menangani data beratribut banyak.