13 Mart 2018 Salı

Veri Madenciliği




Gelişen ve değişen çevre koşulları, sınırların kalkması ile küreselleşen dünya, farklı pazarlama ve ar-ge(araştırma geliştirme) yöntemleri “veri”nin değil “bilgi”nin önemini her geçen gün daha da artacak şekilde ortaya koymaktadır. İnternetin yaygınlaşması ve kolaylaşması ar-ge ekiplerinin “bilgi”ye erişmelerini zorlaştırmaktadır. İnternette arama motorları kullanılarak yapılan araştırmalar çoğu zaman istenilenden farklı bir şekilde sonuçlanmaktadır. Tıbbi bir araştırma sonucunda elde edilen verilerin yorumlanıp analiz edilmesiyle bilgiye ulaşılabilmektedir. Büyük bir perakendecinin, fatura bilgilerinden müşteri eğilimlerini belirleyip ona göre pazarlama taktikleri üretebilmesi, rakiplerinin önüne geçmesini sağlayacaktır. Verilen örneklere dikkat edilirse, “veri”nin “bilgi”ye dönüşme işleminin vurgulandığı görülecektir. Bilginin kimi yöntemler ile analiz edilmesi ve çıkan sonuçların bir uzman gözüyle yorumlanmasıyla geçmiş verilerden gelecek tahminleri yapma işlemi veri madenciliği(data mining) olarak belirtilebilir.

Veri Madenciliği Nedir?
Geniş miktarda bilginin biriktirilmesi ve yararlı bilginin ayrıştırılarak taranması sürecidir. Gelecek müşteri davranışlarının tahmin edilmesi ve müşteri bilgileri içerisinde modellerin tanımlanmasıdır.
Teknolojinin hızla gelişmesi, bir çok işlemin eletronik ortamda kayıt edilmesini, bu kayıtların saklanabilmesini, istendiğinde erişilebilmesini hem kolaylaştırdı hemde daha ucuza sahip olmamızı sağlamıştır.
Firmalar elektronik ortamdaki verileri geleceğe dönük kararlar alırlarken, analiz ederken kullanmak isterler. Bilgisayar ortamında yığınlar halinde duran veriler, veri madenciliği sayesinde anlam kazanır
Veri madenciliği adımı, kullanıcı ve bilgi tabanı ile etkileşim halindedir. İlginç örüntüler kullanıcıya gösterilir, ve bunun ötesinde istenir ise bilgi tabanına da kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler bulunana kadar devam eder. Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir:
·Veri tabanı, veri ambarı ve diğer depolama teknikleri
·Veri tabanı ya da veri ambarı Sunucusu
·Bilgi Tabanı
·Veri Madenciliği Motoru
·Örüntü Değerlendirme
·Kullanıcı Ara yüzü
Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar ara yüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.



Veri Madenciliğinin Tarihi

Günümüzde neredeyse her eve bilgisayar girmiştir ve İnternet erişimi hemen hemen her yerden sağlanmaktadır. Disk kapasitelerinin artması, her yerden bilgiye ulaşma olasılığı, bilgisayarların çok büyük miktarlarda veri saklamasına ve daha kısa sürede işlem yapmasına olanak sağlamıştır. Geçmişten günümüze veriler her zaman yorumlanmış, bilgi elde etmek istenmiştir ve bunun için de donanımlar oluşturulmuştur. Bu sayede bilgi, geçmişten günümüze taşınır hale gelmiştir. 
1950’li yıllarda ilk bilgisayarlar sayımlar için kullanılmaya başlamıştır. 1960’larda ise veri tabanı ve verilerin depolanması kavramı teknoloji dünyasında yerini almıştır. 1960’ların sonunda bilim adamları basit öğrenmeli bilgisayarlar geliştirebilmişlerdir. Minsky ve Papert, günümüzde sinir ağları olarak bilinen perseptron’ların sadece çok basit olan kuralları öğrenebileceğini göstermişlerdir (Adriaans ve Zantinge, 1997). 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmıştır. Bilgisayar uzmanları bununla beraber basit kurallara dayanan uzman sistemler geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde veri tabanı yönetim sistemleri yaygınlaşmış ve bilimsel alanlarda, mühendisliklerde vb. alanlarda uygulanmaya başlanmıştır. Bu yıllarda şirketler, müşterileri, rakipleri ve ürünleri ile ilgili verilerden oluşan veri tabanları oluşturmuşlardır. Bu veri tabanlarının içerisinde çok büyük miktarlarda İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Bahar 2012 5 veri bulunmaktadır ve bunlara SQL veri tabanı sorgulama dili ya da benzeri diller kullanarak ulaşılabilir. 1990’larda artık içindeki veri miktarı katlanarak artan veri tabanlarından, faydalı bilgilerin nasıl bulunabileceği düşünülmeye başlanmıştır. Bunun üzerine çalışmalara ve yayınlara başlanmıştır. 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili temel tanım ve kavramları ortaya koyması ile süreç daha da hızlanmış ve nihayet 1992 yılında veri madenciliği için ilk yazılım gerçekleştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. Alınan sonuçların faydaları görüldükçe, bu alana ilgi artmıştır. Veri madenciliğinin tarihsel gelişim süreci, Şekilde gösterilmiştir. 





Veri Madenciliği ve Yapay Zeka

Yapay zeka, zeki varlıkları anlamaya çalışan bir disiplindir. Aynı amaç ile iştigal eden felsefe ve psikolojiden farkı; sadece anlamaya çalışmak ile yetinmeyip, aynı zamanda zeki varlıklar üretmeye çalışmasıdır.
Yapay zeka da veri madenciliği ve makina öğrenmesi gibi çerçevesi net bir tanımdan yoksundur. Yapay zeka için yapılmış olan mevcut tanımlar iki ana grupta toplanabilir; muhakeme yeteneği ve rasyonel davranma yeteneği. Yine bu iki tanım da kendi içlerinde insan gibi veya rasyonel olmak şeklinde ikiye ayrılır.
Yapay zeka muhakeme yeteneğine sahip veya zekice davranabilen ve düşünce veya davranış açısından insana benzeyen veya rasyonel olabilen makinalar geliştirmek üzerine bir disiplindir.
Yapay zeka felsefe, matematik(özellikle istatistik), dil bilim, psikoloji ve bilgisayar mühendisliğinin ürünlerinden sıkça yararlanır.
Yapay zeka, bir disiplin olarak makine öğrenmesini içerir. Yapay zeka makine öğrenmesi dışında görüntü algılama, robotik gibi bilgisayar bilimleri dışında kalan alanlardaki çalışmaları da kapsar.
Veri madenciliğinde, sınıflandırma amacıyla kullanılan sinir ağları tekniği yapay zeka alanında yapılan çalışmaların ürünüdür.


Veri Madenciliği ve Yapay Zeka ile ilgili görsel sonucu




Veri Madenciliği Metodolojileri 

Veri madenciliği sürecinde kullanılan metodolojiler aşağıda belirtilmiştir. CRISP-DM ve SEMMA metodolojilerinin dışında şirketlere özel metodolojilerde bulunmaktadır. Metodolojiler veri madenciliği sürecinin nasıl yapılması gerektiği ifade etmektedir.
1.CRISP-DM (Cross Industry Standard Process for Data Mining)


2.SEMMA (Sample,ExploreModifyModel and Assess)


Veri Madenciliği Modelleri (Data Mining Models)

A. Tahmin Edici Modeller (Predictive) / Tanımlayıcı Modeller (Descriptive)
1.Tahmin Edici Modeller (Predictive)


a. Sınıflandırma
b. Regresyon
c. Zaman Serisi Analizi
2.Tanımlayıcı Modeller (Descriptive)

a. Kümeleme
b. Birliktelik Kuralları
B. Denetimli (Supervised)/ Denetimsiz Modeller (Unsupervised)

Denetimli
(Supervised)
Denetimsiz
(Unsupervised)
Tahmin (Prediction)
Sınıflandırma (Classification)
*
Regresyon (Regression)
*
Birliktelik (Association)
Bağlantı Analizi (Link Analysis)
*
Ardışık Zamanlı (Sequence Analysis)
*
*
Kümeleme (Clustering)
Aykırı Değer Analizi (Outlier Analysis)
*






Kullanılan Kaynaklar 
Uslu, M. (2016) “Veri Madenciliği”
Savaş, S. Topaloğlu N. Yılmaz M. (2012) “Veri Madenciliği ve Türkiye’deki Uygulama Örnekleri ”
Euromsg , (2018) “Data Mining – Veri Madenciliği Nedir?”
Örnek, M. (2016) “Data Mining Veri madenciliği Nedir?”
Işıklı, B. (2009) “Veri Madenciliği Data Mining Nedir ve Nerelerde Kullanılır?”









Hiç yorum yok:

Yorum Gönder