Veri Madenciliği Nedir?

  • Veri Madenciliği Nedir

Veri madenciliği 1990’lardan beri gelişmekte ve kullanım alanı yayılmakta olan bir konudur. Bu nedenle, tanımının yapılması da oldukça güçtür, çünkü her geçen gün daha da geliştiği için bugün yapılan bir tanım yarın yetersiz kalabilmektedir. En yaygın tanımlardan bir tanesi şöyle der:

Veri madenciliği daha önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veritabanlarından elde edilmesi ve bu bilgilerin işletme kararları verirken kullanılmasıdır.

Burada altının çizilmesi gereken noktalardan birincisi elde edilecek bilginin ‘önceden bilinmeyen’ olmasıdır. Veri madenciliği sonunda ulaşılacak bilginin önceden bilinmiyor olmasından kasıt, elde edilecek sonucun tahmin edilmemesi anlamını taşımaktadır. Zaten tahmin edilebilen, beklenen sonuçlar için veri madenciliği kullanmak pek de ekonomik olmayacaktır.  Ayrıca veri madenciliği tahmin edilen, öngörülen ya da başka yöntemlerle çıkarılmış sonuçların ispatını yapmak üzere kullanılacak bir araç da değildir. Ayrıca, veri madenciliği daha önce hiç akla gelmemiş, düşünülmemiş sonuçları önümüze koymasıyla diğer yöntemlerden farklılık gösterir.  Zaten işletmede başarı daha önce hiç kimsenin düşünmediğini düşünmekten geçmez mi?

‘Daha önce bilinmeyen’ ya da tahmin edilemeyenle ilgili en ünlü örnek ise, artık klasikleşmiş, kulaktan kulağa anlatılan ve veri madenciliğinin ‘bilinmeyenini’ çarpıcı bir şekilde önümüze koyan bira – çocuk bezi  örneğidir:

Bir perakende mağazalar zincirinin yaptığı veri madenciliği araştırmasının sonuçlarına göre bira ile çocuk bezi satışları arasında, özellikle Cuma günleri, güçlü bir ilişki vardır.  Çocuk bezi satın alan kişilerin büyük çoğunluğu aynı zamanda bira da satın almaktadırlar. Daha doğrusu, Cuma günleri çocukları için alışverişe çıkan babalar arada kendileri için de alışveriş yapmaktadırlar.

Gartner Group tarafından yapılan bir diğer tanımda ise veri madenciliği, istatistik ve matematik tekniklerle birlikte örüntü tanıma (Pattern Recognition) teknolojilerini kullanarak, depolama ortamlarında saklanmış bulunan veri yığınlarının elenmesi ile anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir. Veri madenciliğini salt bir tanım olarak ele alırsak gerçekte var olan önemini tam olarak yansıtmamış oluruz. Salt bir tanımda veri madenciliği için bir tahmin aracı gibi yaklaşılabilir, ya da veri madenciliği basit bir bilgisayar programı gibi görülebilir. Oysa kullanım alanlarına baktıkça durumun hiç de öyle olmadığı görülecektir.

Veri Madenciliğinin Uygulama Alanları

Veri madenciliği bankacılık, pazarlama, sigortacılık, sağlık gibi değişik alanlarda uygulanmaktadır. Veri madenciliğinin kullanılmasında sektör farkı gözetilmemekle beraber, geniş veri ambarlarının oluşturulmasına olanak veren, perakende satış, sigortacılık, sağlık, gibi alanlarda kullanılması daha yaygın ve daha doğrudur. Şimdi veri madenciliğinin işlevini daha iyi anlamak için uygulama alanlarını ana başlıklar halinde inceleyelim.

  • Pazarlama Yönetimi

Pazarlama alanı ile ilgili olarak bu güne kadar yapılmış ve yapılmakta olan uygulamaların bazıları şunlardır:

  • Müşterilerin satın alma örüntülerinin belirlenmesi:

Müşteriler herhangi bir malı aldıktan sonra, anlamlı bir sıklıkla başka bir malı alıyor mu? Kuşkusuz bu bilgi, işletme açısından oldukça önemli bir bilgi olacaktır.

  • Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması:

Müşterilerin, yaşı, eğitim durumu, medeni hali vs. ile satın aldıkları ürünler arasında  her hangi bir korelasyon var mı ? Bu sorunun yanıtı seçilecek uygun bir veri madenciliği teknik veya yöntemi ile verilebilir.

  • Posta kampanyalarında cevap verme oranının arttırılması:

Gerek tanıtım/promosyon için yapılan, gerekse belli bir ürüne ilgi gösteren potansiyel müşteri grubu hakkında bilgi sahibi olmak için yapılan posta kampanyalarına katılımın arttırılabilmesi için bu kampanyaya sadece katılması en muhtemel kişileri dahil etmek bir çözüm olabilir. İşletmenin elinde adresi bulunan mevcut müşterilerinin hangilerinin yapılacak posta kampanyalarına katılmasının muhtemel olduğu da veri madenciliği ile belirlenebilir.

  • Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması.

Mevcut müşterilerin bağlılığının test edilip, kaybedilmeye en yakın müşterilerin ve yine kazanılmaya en yakın müşterilerin belirlenmesi ve yönetime bildirilmesi veri madenciliği yöntemi ile yapılmaktadır.

  • Pazar sepeti analizi (Market Basket Analysis).

Özelilikle süpermarket gibi alışveriş merkezlerinde, müşteriler birden fazla ürün alırlar. Acaba A ürününü alan yanında başka bir B, C gibi ürün alıyor mu? B ürününü alan kişinin aynı gün C ürününü alma olasılığı nedir? Bütün bunları uygun veri madenciliği yöntem ve teknikleri kullanarak belirleyebiliriz.

Bütün bunlar dışında pazarlama yönetimi açısından veri madenciliği,

  • Müşteri ilişkileri yönetimi (Customer Relationship Management)
  • Müşteri değerlendirme (Customer Value Analysis)
  • Satış tahmini (Sales Forecasting)
  • Çapraz satış

Konularında da kullanılabilir.

  • Risk Yönetimi ve Dolandırıcılık Saptama

Dolandırıcılık başlıca şu konu başlıkları altında karşımıza çıkabilir.

  • Kredi kartı dolandırıcılığı
  • İnternet işlemleri, e-nakit dolandırıcılığı
  • Sigorta dolandırıcılığı
  • Karapara Aklama
  • Bilgisayar sistemleri ve bilgisayar ağlarına girme
  • Telefon dolandırıcılığı
  • Üyelik abonelik dolandırıcılığı

Yukarıdaki listede de görüldüğü gibi, teknolojinin ilerlemesi ile birlikte dolandırıcılık türlerinde de bir artma olmuştur, değişen dünya teknolojisine uygun dolandırıcılık türleri gelişmiştir. Aslıda dolandırıcılık, tüm Dünya endüstrisi için büyük bir sorun haline gelmiş ve her yıl milyarlarca dolar kayba neden olmaktadır. MasterCard International 1997’deki satışlarının %7,7 sinin dolandırıcılık kapsamında gerçekleştiğini bildirmiştir. Kredi kartı veren finans kuruluşları daha dolandırıcılık henüz meydana gelmeden dolandırıcılığı tespit etmektedirler.  Bunun için de , Bilgi Keşfi, Yapay Zeka ve Veri Madenciliği gibi yöntemler kullanmaktadırlar.

  • Diğer Uygulamalar

Pazarlama ve risk yönetimi dışında veri madenciliği şu alanlarda da kullanılır:

Sinyal İşleme: Telefon hatlarındaki parazitlenmeden dolayı oluşacak kayıpları ve buna bağlı olarak konuşmada ortaya çıkan gürültüyü yok etme.

Biyoloji: DNA sıra(veri) analizi. İnsanda yaklaşık 100.000 gen vardır. Hastalıklara yol açan gen sıralama örneklerini binlerce gen arasından bulmak, tanımlamak oldukça zor bir iştir. Veri madenciliğiyle geliştirilen sıralama örnek analizi ve benzerlik arama metotları DNA verisi üzerinde  analiz yapmayı kolaylaştırır.

Tıp: Bazı hastalıkların %100 kesin teşhisi mümkün olmamaktadır. Örneğin hamilelik esnasında çocukta oluşabilecek herhangi bir  Down Sendromu riskinin kesin teşhisi dış bulgularla sağlanamamaktadır.  Buradaki dış bulgulardan kasıt, anneden alınacak kan örneği, ultrason ile bebeğin görüntülenmesi, anne adayının yaşı, hamilelik ayı aldığı kilo vs. gibi bulgulardır.  Ancak bu bulguların hemen hiç biri hekime %100 tanı koyma olanağı vermez. %100 ve/veya %100’e çok yakın bir tanı için anne karnından alınacak sıvının incelenmesi gerekmektedir. Oysa bu işlemde de 1/300 oranında bir düşük riski vardır. Dolayısıyla bu işleme girmeden önce hekimin anne karnındaki bebekte down sendromu olduğundan kuşkulanması gerekmektedir. Bu aşamada yukarıda söz edilen dış bulgular ve veri madenciliği teknikleri devreye girmektedir.

Daha önce bu işlem uygulanmış, dış bulguları ve operasyon sunucu kaydedilmiş hasta adaylarına ait veritabanı, veri madenciliği algoritmaları tarafından incelenerek, bir makine öğrenmesi, sınıflandırma, karar ağacı vs. gerçekleştirilir. Daha sonra gerçekleştirilen bu sisteme – örneğin karar ağacı- mevcut anne adayının bilgileri girilerek bebekteki risk oranı belirlenir.  Bu oranın büyüklüğüne bağlı olarak hekimin bir fayda risk analizi yapıp operasyona karar vermesi kolaylaşır.

Tıp alanında bunun gibi ameliyat riski taşıyan ancak, ameliyat öncesinde gerçekten ameliyat olması gerektiği tam olarak anlaşılamayan hasta ve hastalıklar için de veri madenciliği yöntemi kullanılır.

Ayrıca parmak izi tespiti, yüz şeklinden kimlik tespiti, insan sesinin bilgisayar ve diğer elektronik aygıtlarda komut olarak kullanılması konularında da kullanılır.

Amerika Bankası kendi ürünlerini kullanan banka müşterilerinin tespitinde veri madenciliği kullanır ve müşteri ihtiyaçlarını karşılamak için ürün ve servislerden oluşan paketler sunar.

Farmer Group şirketinin “Risk Analiz Yönetim” paketi, sigorta oranı belirlenmesi, yatırım portföyü yönetimi, iyi ve kötü kredi riskleri taşıyan şirketlerin ve müşterilerinin belirlenmesinde veri madenciliği kullanır.

Twentieth Century Fox adlı film şirketi ise fatura bilgilerini analiz ederek hangi aktörün, hangi filmin, hangi bölgede daha çok izlendiğini tespit ederek yeni film projelerini başlatmış ve bölge bazında gösterimler sunmuştur.

Görüldüğü gibi veri madenciliği bir çok ve birbirinden farklı konuyla ilgilenmekte, başka bir deyişle birbirinden farklı bir çok konu veri madenciliği yöntem ve teknikleri aracılığı ile geliştirilmektedir. Bunun böyle olmasının başlıca sebebi veri madenciliği ve yapay zeka konularının -makine öğrenmesi vs.- bir birlerine algoritma ve teknik olarak yaklaşmalarıdır.  Aslında veri madenciliğinin yapay zeka, makine öğrenmesi adı altında geliştirilen algoritmaları kullanmakta ve ayrıca veri madenciliği üzerine çalışanların geliştirdiği algoritmalar da yapay zeka alanına büyük fayda sağlamaktadır.