Pengertian Himpunan Data Dalam Data Mining

Himpunan data (data-set) merupakan kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance.


Nilai-Nilai Atribut Dalam Data Mining

Nilai- nilai atribut adalah angka atau simbol yang memberi nilai pada atribut tersebut. Perbedaan antara atribut dan nilai- nilai atribut.
  1. Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda. Contoh: ketinggian dapat diukur dengan satuan kaki atau meter.
  2. Atribut yang berbeda dapat dipetakan ke himpunan nilai yang sama. Contoh: Nilai atribut untuk ID dan umur adalah bilangan bulat,tetapi sifat dari nilai atribut dapat berbeda. ID tidak terbatas tetapi umur mempunyai nilai minimal dan nilai maksimal.
Tipe dari suatu atribut tergantung pada sifat yang dimiliki berikut ini:
  • Pembeda (Distinctness): = 1
  • Urutan (Order):  <>
  • Penjumlahan (Addition): + -
  • Perkalian (Multiplication): * /
Baca Juga: Tantangan dan Permasalahan Data Mining

Tipe-tipe Atribut Dalam Data Mining

Atribut dapat dibedakan dalam tipe-tipe yang berbeda bergantung pada tipe domainnya, yaitu bergantung pada tipe nilai yang diterima. Atribut katagorikal (categorical attribute) adalah salah satu tipe yang domainnya merupakan sebuah himpunan simbol berhingga. Contoh :Ienis kelamin, status, dan pendidikan, dimana domainUenis kelamin) = {L, P},
domain(status) = {Menikah, Belum Menikah} dan domain(Pendidikan) = {SD: SMP, SMA, D3, 51, 52, S3, lainnya}.

Atribut katagorikal dibedakan menjadi dua tipe,yaitu :
  1. Nominal: Sebuah atribut dikatakan nominal j ika nilai-nilainya tidak dapat diurutkan Contoh: Jenis kelamin, warna mata. Atribut nominal mempunyai sifat pembeda (distinctness).
  2. Ordinal: Disebut atribut ordinal jika nilai-nilainya dapat diurutkan dalam beberapa cara, contoh: ranking (misal, rasa dari keripik kentang pada skala 1-10), grade, tinggi dalam {tinggi, medium, pendek} atau'pendidikan (karena kita dapat mengatakan bahwa pendidikan Sl lebih tinggi dari SMA maupun D3). Sifat dari ordinal atribut adalah pembeda dan urutan (order).
Baca Juga: Teknik Pencarian Pola Sekuensial(Sequence Mining) Pada Data Mining

Tipe atribut kedua adalah atribut numerik (numeric attribute) yang domainnya berupa bilangan riil atau integer.Contohnya umur dan gaji.Domain(umur) = domain(gaji) = bilangan riil positif. Atribut numerik juga dibedakan menjadi dua,yaitu :
  1. Interval: Untuk jenis atribut ini mempunyai sifat bahwa perbedaan antara nilai-nilainya sangat berarti. Contoh: tanggal, suhu dalam Celsius atau Fahrenheit, karena tidak ada bedanya jika kita menyatakan bahwa 20°C = dua kali dinginnya 10°C.
  2. Rasio: Dalam atribut jenis ini, baik beda maupun rasio sangat berarti. Contoh atribut rasio: suhu dalam Kelvin, panjang, waktu, jumlah, Kita dapat menyatakan bahwa orang berumur 20 tahun dua kali lebih tua dari yang berusia 10 tahun. 
Atribut berdasarkan jumlah nilainya dibedakan menjadi dua yaitu :
  1. Atribut Diskrit (Discrete Attribute) yaitu atribut yang hanya menggunakan sebuah himpunan nilai berhingga atau himpunan nilai tak berhingga yang dapat dihitung. Contoh: zip codes, jumlah, atau himpunan kata dalam kumpulan dokumen. Sering dinyatakan sebagai variabel bilangan bulat (integer). Catatan: atribut biner merupakan kasus khusus dari atribut diskrit.
  2. Atribut Kontinyu (Continudus Attribute) yaitu atribut yang menggunakan bilangan riil sebagai nilai atribut. Contoh: suhu, ketinggian atau berat. Pada kenyataannya, nilai riil hanya dapat diukur dan dinyatakan menggunakan sejumlah digit yang berhinggaAtribut kontinyu secara khusus dinyatakan sebagai variabel decimal (floating-point).