Datamining terutama digunakan untuk mencari pengetahuan yang terdapat dalam basis data yang besar sehingga sering disebut Knowledge Discovery in Databases (KDD).
Proses pencarian pengetahuan ini menggunakan berbagai teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti. Dalam penerapannya dataminig memerlukan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat.
Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
Latar Belakang
- Melimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi.
- Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun..
- Data–data tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing)
Dari sudut pandang komersial, pemanfaatan dataming dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya:
- Bagaimana mengetahui hilangnya pelanggan karena pesaing
- Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
- Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.
- Bagaimana memprediski tingkat penjualan
- Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
- Bagaimana memprediksi prilaku bisnis di masa yang akan datang
- Remote sensor yang ditempatkan pada suatu satelit
- Telescope yang digunakan untuk memindai langit
- Simulasi saintifik yang membangkitkan data dalam ukuran terabytes
Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar
KDD adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki tahap sebagai berikutPembersihan data dan integrasi data (cleaning and integration)Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database datawarehouse.
Fungsi
- Assosiation, adalah proses untuk menemukan aturan assosiatif antarasuatu kombinasi item dalam suatu waktu
- Secuence, hampir sama dengan association bedanya seccuencediterapkan lebih dari satu periode.
- Clastering, adalah proses pengelompokan sejumlah data/obyek kedalam kelompok-kelompok data (klaster) sehingga setiap klaster akanberisi data yang saling mirip.
- Classification, adalah proses penemuan model atau fungsi yangmenjelaskan atau membedakan konsep atau kelas data, dengan tujuanuntuk dapat memperkirakan kelas dari suatu objek yang labelnya tidakdiketahui.