Bu yazımızda veri madenciliği konusunun başlangıç konusu olan veri ön işleme tekniklerinden bahsediyor olacağız. Data Prepprocessing olarak literatürde yerini alan konumuz, veri madenciliği çalışmasına başlangıç fazında, henüz bir model ortaya konmamışken veri seti üzerinde yapılan bir takım iyileştirme çalışmalarıdır. Bu iyileştirme çalışmalarını biraz açacak olursak öncelikle veri seti üzerinde mümkünse gözle tarama yapılmalıdır. Gözümüze takılan bir nitelik veya bu niteliğe ait verilerde bir tutarsızlık olup olmadığı incelenir. Örneğin nitelik kolonlarından bir tanesinde sürekli aynı veri bulunuyor olabilir veya üretim kolonunda sadece 1 yazıyor olabilir farklı bir veri olmadığı zamanlarda bu kolonları kapsam dışı bırakabiliriz. Veri setini excel formunda düşünürsek bu tür bir kolonu komple silebiliriz.
Daha sonra bakılması gereken noktalar eksik veriyi tespit etme, eksik veriyi kaldırma, tekrarlı verileri kaldırma, aykırı verilerin tespit edilmesi, düzeltme işlemleri, dönüştürme işlemleri, normalleştirme ve veriyi bir şekilde optimize etme işlemleridir. Veri seti üzerinde tüm bu işlemler yapılırken de aslında veri hakkında bilgi sahibi olunmuş olunur. Böylece veri üzerinde yapılması planlanan her bir işlem için veri setinin uygunluğu anlaşılır.
Veri seti üzerinde yapılacak bir işlemde tahmin edileceği üzere verinin tüm sorunlarından arınmış ve yapılacak işleme cevap verir hale gelmiş olması gerekmektedir. Bu yüzden veri ön işleme adımları veriler üzerinde bir model belirlenerek çalışmaya başlanmadan hemen önce yapılır ve aşağı yukarı tüm veri işleme sürecinin %70’lik bir bölümünü veri ön işleme adımları alır. Bu oran oldukça büyük bir orandır çünkü temiz bir veri olmazsa uygulanacak modellerden başarı alınamaz ve bizi yanlış sonuçlara götürür.
Veri ön işleme tekniklerinde bir sınıflandırma yapacak olursak, aşağıdaki şekilde bir sıralama aydınlatıcı olacaktır.
- Veri Temizleme
- Veri Birleştirme
- Veri Dönüştürme
- Veri İndirgeme
Veri temizleme sınıfında (veri sınıflandırma ile karıştırılmamalıdır.) veri seti içerisinde tespit edilen aykırı değerlerin temizlenmesi, eksik verilerin kaldırılması veya tamamlanması gibi işlemler yapılır. Bu işlemler verinin üzerindeki gürültüyü azaltmış olurlar. Yapılacak her bir eksik veri tamamlama veya aykırı veri tespit çalışması için ise ayrı ayrı yöntemler geliştirilmiştir. Örneğin bir eksik veri tahmini işleminde istatistiksel yöntemlerden faydalanılacağı gibi, optimizasyon yöntemleri veya regresyon yöntemlerinden de faydalanılır. Bu işlemlerin her biri farklı şekillenip sonuçta verideki eksik veriyi tamamlamış olacaktır.
Veri önişleme fazında veri öncelikle küçükten büyüğe veya anlamlı olacak şekilde sıralanmalıdır. Sıralanmamış bir veri seti üzerinde ön işleme adımlarından söz edilemez. Ardından aykırı veri tespitinde veya gürültülü verilerin tespitinde kümeleme algoritmalarından faydalanabilir. Yine eksik verilerin tamamlanması aşamasında ise regresyon veya yukarıda bahsedildiği gibi diğer yöntemlerden biri seçilebilir.
Veri birleştirme sınıfında ise farklı farklı veri tabanlarında bulunan veri setlerinin tek bir yerde toplanması aşamasının düzenli bir şekilde yürütülmesi sağlanır. Veri dönüştürme sınıfında veri seti içerisindeki verilerin madencilik operasyonlarına uygun şekilde dönüştürülmesi sağlanır. İndirgeme olarak adlandırdığımız son sınıfımızda ise büyük verinin daha özet formuna dönüştürülmesi ve operasyonların bu özet form üzerine uygulanmasını amaçlayan bir indirgeme yapılabilir.
Veri madenciliğinde ön işleme teknikleri, veri sınıflandırma ve kümeleme teknikleri konuları oldukça detaylı ve tane tane hazmedilmesi gereken konulardır. Bu yazımızda bir veri seti üzerinde veri işleme çalışmasına başlamadan önce ne tür ön işleme adımlarından geçmesi gerektiği ile ilgili bilgi vermeye çalıştık. Ancak bahsedilen her bir tekniğin kendi içerisinde yöntemleri olduğu unutulmamalıdır.
Bu konuyla ilgili sorularınızı alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.
Referanslar
TAGs: Data mining, veri madenciliği, veri ön işleme teknikleri, veri madenciliği giriş