Gelişen ve değişen çevre
koşulları, sınırların kalkması ile küreselleşen dünya, farklı pazarlama ve
ar-ge(araştırma geliştirme) yöntemleri “veri”nin değil “bilgi”nin önemini her
geçen gün daha da artacak şekilde ortaya koymaktadır. İnternetin yaygınlaşması
ve kolaylaşması ar-ge ekiplerinin “bilgi”ye erişmelerini zorlaştırmaktadır.
İnternette arama motorları kullanılarak yapılan araştırmalar çoğu zaman
istenilenden farklı bir şekilde sonuçlanmaktadır. Tıbbi bir araştırma sonucunda
elde edilen verilerin yorumlanıp analiz edilmesiyle bilgiye ulaşılabilmektedir.
Büyük bir perakendecinin, fatura bilgilerinden müşteri eğilimlerini belirleyip
ona göre pazarlama taktikleri üretebilmesi, rakiplerinin önüne geçmesini
sağlayacaktır. Verilen örneklere dikkat edilirse, “veri”nin “bilgi”ye dönüşme
işleminin vurgulandığı görülecektir. Bilginin kimi yöntemler ile analiz
edilmesi ve çıkan sonuçların bir uzman gözüyle yorumlanmasıyla geçmiş
verilerden gelecek tahminleri yapma işlemi veri madenciliği(data mining)
olarak belirtilebilir.
Geniş miktarda bilginin
biriktirilmesi ve yararlı bilginin ayrıştırılarak taranması sürecidir. Gelecek
müşteri davranışlarının tahmin edilmesi ve müşteri bilgileri içerisinde
modellerin tanımlanmasıdır.
Teknolojinin hızla gelişmesi, bir
çok işlemin eletronik ortamda kayıt edilmesini, bu kayıtların saklanabilmesini,
istendiğinde erişilebilmesini hem kolaylaştırdı hemde daha ucuza sahip olmamızı
sağlamıştır.
Firmalar elektronik ortamdaki
verileri geleceğe dönük kararlar alırlarken, analiz ederken kullanmak isterler.
Bilgisayar ortamında yığınlar halinde duran veriler, veri madenciliği sayesinde
anlam kazanır
Veri madenciliği adımı,
kullanıcı ve bilgi tabanı ile etkileşim halindedir. İlginç örüntüler
kullanıcıya gösterilir, ve bunun ötesinde istenir ise bilgi tabanına da
kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler
bulunana kadar devam eder. Bir veri madenciliği sistemi, aşağıdaki temel
bileşenlere sahiptir:
·Veri tabanı, veri ambarı ve
diğer depolama teknikleri
·Veri tabanı ya da veri ambarı
Sunucusu
·Bilgi Tabanı
·Veri Madenciliği Motoru
·Örüntü Değerlendirme
·Kullanıcı Ara yüzü
Veri madenciliği, eldeki
verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel
olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme,
değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları
içerir.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar ara yüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar ara yüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Veri Madenciliğinin Tarihi
Günümüzde neredeyse her eve bilgisayar girmiştir ve İnternet erişimi
hemen hemen her yerden sağlanmaktadır. Disk kapasitelerinin artması, her yerden
bilgiye ulaşma olasılığı, bilgisayarların çok büyük miktarlarda veri
saklamasına ve daha kısa sürede işlem yapmasına olanak sağlamıştır. Geçmişten
günümüze veriler her zaman yorumlanmış, bilgi elde etmek istenmiştir ve bunun
için de donanımlar oluşturulmuştur. Bu sayede bilgi, geçmişten günümüze taşınır
hale gelmiştir.
1950’li yıllarda ilk bilgisayarlar sayımlar için kullanılmaya
başlamıştır. 1960’larda ise veri tabanı ve verilerin depolanması kavramı
teknoloji dünyasında yerini almıştır. 1960’ların sonunda bilim adamları basit
öğrenmeli bilgisayarlar geliştirebilmişlerdir. Minsky ve Papert, günümüzde
sinir ağları olarak bilinen perseptron’ların sadece çok basit olan kuralları
öğrenebileceğini göstermişlerdir (Adriaans ve Zantinge, 1997). 1970’lerde İlişkisel
Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmıştır.
Bilgisayar uzmanları bununla beraber basit kurallara dayanan uzman sistemler
geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde
veri tabanı yönetim sistemleri yaygınlaşmış ve bilimsel alanlarda,
mühendisliklerde vb. alanlarda uygulanmaya başlanmıştır. Bu yıllarda şirketler,
müşterileri, rakipleri ve ürünleri ile ilgili verilerden oluşan veri tabanları
oluşturmuşlardır. Bu veri tabanlarının içerisinde çok büyük miktarlarda
İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Bahar 2012 5 veri
bulunmaktadır ve bunlara SQL veri tabanı sorgulama dili ya da benzeri diller
kullanarak ulaşılabilir. 1990’larda artık içindeki veri miktarı katlanarak
artan veri tabanlarından, faydalı bilgilerin nasıl bulunabileceği düşünülmeye
başlanmıştır. Bunun üzerine çalışmalara ve yayınlara başlanmıştır. 1989, KDD
(IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD
(IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real
Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge
Discovery and Data Mining) ile ilgili temel tanım ve kavramları ortaya koyması
ile süreç daha da hızlanmış ve nihayet 1992 yılında veri madenciliği için ilk
yazılım gerçekleştirilmiştir. 2000’li yıllarda veri madenciliği sürekli
gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. Alınan
sonuçların faydaları görüldükçe, bu alana ilgi artmıştır. Veri madenciliğinin
tarihsel gelişim süreci, Şekilde gösterilmiştir.
Veri
Madenciliği ve Yapay Zeka
Yapay zeka,
zeki varlıkları anlamaya çalışan bir disiplindir. Aynı amaç ile iştigal eden
felsefe ve psikolojiden farkı; sadece anlamaya çalışmak ile yetinmeyip, aynı
zamanda zeki varlıklar üretmeye çalışmasıdır.
Yapay zeka
da veri madenciliği ve makina öğrenmesi gibi çerçevesi net bir tanımdan
yoksundur. Yapay zeka için yapılmış olan mevcut tanımlar iki ana grupta
toplanabilir; muhakeme yeteneği ve rasyonel davranma yeteneği. Yine bu iki
tanım da kendi içlerinde insan gibi veya rasyonel olmak şeklinde ikiye ayrılır.
Yapay zeka
muhakeme yeteneğine sahip veya zekice davranabilen ve düşünce veya davranış
açısından insana benzeyen veya rasyonel olabilen makinalar geliştirmek üzerine
bir disiplindir.
Yapay zeka
felsefe, matematik(özellikle istatistik), dil bilim, psikoloji ve bilgisayar
mühendisliğinin ürünlerinden sıkça yararlanır.
Yapay zeka,
bir disiplin olarak makine öğrenmesini içerir. Yapay zeka makine öğrenmesi
dışında görüntü algılama, robotik gibi bilgisayar bilimleri dışında kalan
alanlardaki çalışmaları da kapsar.
Veri
madenciliğinde, sınıflandırma amacıyla kullanılan sinir ağları tekniği yapay zeka
alanında yapılan çalışmaların ürünüdür.
Veri Madenciliği Metodolojileri
Veri madenciliği sürecinde kullanılan
metodolojiler aşağıda belirtilmiştir. CRISP-DM ve SEMMA metodolojilerinin
dışında şirketlere özel metodolojilerde bulunmaktadır. Metodolojiler veri
madenciliği sürecinin nasıl yapılması gerektiği ifade etmektedir.
1.CRISP-DM (Cross Industry
Standard Process for Data Mining)
2.SEMMA (Sample,Explore, Modify, Model and Assess)
Veri
Madenciliği Modelleri (Data Mining Models)
A. Tahmin Edici Modeller
(Predictive) / Tanımlayıcı Modeller (Descriptive)
1.Tahmin Edici Modeller (Predictive)
a.
Sınıflandırma
b. Regresyon
c. Zaman Serisi Analizi
2.Tanımlayıcı Modeller
(Descriptive)
a.
Kümeleme
b. Birliktelik Kuralları
B. Denetimli (Supervised)/
Denetimsiz Modeller (Unsupervised)
Denetimli
(Supervised)
|
Denetimsiz
(Unsupervised)
|
||
Tahmin
(Prediction)
|
Sınıflandırma (Classification)
|
*
|
|
Regresyon (Regression)
|
*
|
||
Birliktelik
(Association)
|
Bağlantı Analizi (Link Analysis)
|
*
|
|
Ardışık Zamanlı (Sequence Analysis)
|
*
|
||
*
|
|||
Kümeleme
(Clustering)
|
Aykırı Değer Analizi (Outlier Analysis)
|
*
|
Kullanılan Kaynaklar
Uslu, M. (2016) “Veri Madenciliği”
Savaş, S. Topaloğlu N. Yılmaz M. (2012) “Veri
Madenciliği ve Türkiye’deki Uygulama Örnekleri ”
Euromsg , (2018) “Data Mining – Veri Madenciliği Nedir?”
Örnek, M. (2016) “Data Mining Veri madenciliği Nedir?”
Işıklı, B. (2009) “Veri Madenciliği Data Mining Nedir ve
Nerelerde Kullanılır?”
Hiç yorum yok:
Yorum Gönder