Knime Örnek Çalışmaları – Şarap Örneği

AMAÇ = Şarapların kalitesinin altında yatan kimyasal nedenleri ortaya çıkarmak. Hangi kimyasal nedenle bunlar iyi ya da kötü şaraptır?

Veri setini indirmek için buraya tıklayınız.

AŞAMALAR
1) File >> New >> New KNIME Workflow >> Next >> name: wine_examle >> Finish
2) Excel Reader ekle ( IO >> Read >> Excel Reader )
Sağ tıkla Configure >> Dosya yolunu seç >> Table contains column names in row number işaretle. >> Refresh >> OK >> Sağ tıkla Execute

Sağ tuş Output Table

Proantosiyanid = burukluk üzüm çekirdeğinin içinde bulunan kimyasal bir madde ve burukluk verir.
Hue = Renk yoğunluğu    Sulandırma Oranı = 1.04     Alkol Oranı = 3,92   Prolin = 1065     Kalite = insan tespiti

 

3) Histogram Interactive ekle (Views >> Histogram Interactive)
Histogram’a sağ tıkla Execute and Open Views
Bin Settings’i azaltıp dağılıma bakabiliriz.

3 tür kalite çeşidi vardır; 1. Kalite = 59 adet,    2. Kalite 71 adet,    3. Kalite = 48 adet

4) Color Manager Ekle- Excel’e bağla, Histogramı da ona bağla. Çift tıklayarak aç. Otomatik olarak kaliteyi seçmiştir.

Kırmızı renkte olan 1. Kalite, Yeşil renkte olan 2. Kalite, Mavi renkte olan 3. Kalite şaraptır.

Histogram sağ tıkla execute and open views. Boyanmış halde kalitenin gösterimi çıktı. Column / Aggregation Settings >> Alkolü seç

8,218’den sonra yeşil şarap göremiyoruz.
Yeşil şarap elde etmek istiyorsak, renk_hue değeri = 3,406’dan düşük olmalıdır.
Ama kimyacılar diyor ki; renk hue ile oynamak için sulandırmak gerekiyor. Şimdi sulandırma değerlerine bakalım

Sulandırıldığı zaman yeşil sağ tarafa kaymaya başlıyor. Su azaldığında ise mavi sola kayıyor.
Ters şekilde renk de değişiyor. O zaman bizim diğer parametlere de aynı anda bakıyor olmamız lazım. Tek tek hepsine girilip özet yazılması lazım. Öyleyse karar ağacına geçelim; 

Decision Tree ekle >> Excel’e bağla >> Çift Tıkla

Kalite seçili olmalı.
Quality Measure = hangi algoritmayı kullanalım?
Prunin Method = verimiz az olduğu için no pruning seçili olacak.  
Default değerleri kullanabiliriz. Değişiklik yapmamıza gerek yok.

OK >> Sağ tıkla >> Execute and Open Views

Firmanın üretmiş olduğu 3 değişik kalitede şarabın bu güne kadar %33,1 i = 1 kalite , %39,9’u = 2. Kalite,
%27 = 3.kalite şaraplardır. Makine tarafından şarabın kalitesini belirleyen en önemli faktör = prolindir. 755’in üstünde ise %85 oranıyla 1. Kalite şaraptır. Eğer nonflavanoid phenol’ü 2,165 üzerindeyse %96,6 olasılıkla
1. Kalite şarap çıkar.

Prolin değeri 755’in altında veya eşitse alkol oranına bakmalıyız. Alkol oranı düştükçe kalite de düşmektedir.
2,115’in altında ise 1. Kalite şarap yapma ihtimali yoktur en  fazla 2. derece yapabilirsin.  
Sulandırma oranı 0,93ün altına düştüğünde 3.kalitede şarap üretilir. Kötü şarap üretmek istiyorsan suyu fazla kullanırsın.  Diyelim ki kaliteli şarap üretimi yapmak istiyoruz o zaman sulandırma oranını düşük tutacağız.

Şuanda makineye şarap kalitesini öğretmeye çalışıyoruz.
After the teach >> Bunun testi yapılır, acaba doğru mu diye. Veriler 2’ye ayrılır. Bunun için de ayrı bir sistem geliştirilir. Önce partition ile veriler ikiye bölünür. Bir kısmında öğrenme gerçekleşir diğerinde ise testi. Scorer ile de sonuca bağlanıp, karar ağacı çözümü kolaylıkla görüntülenir.

Partition Ekle >> Excel’e bağla >> Çift tıkla

 

Absolute = 100 (tamamını öğrenmeye ayır.) 100 tanesini. Ama Relative yani yüzde kullanacağız.
Relative = 70 ( %70ini benim için öğrenme için kullan. Geriye kalanı da test için kullan anlamına gelir.)
Alltaki seçenekte ise diyorki; ben bu %70’i neye göre seçeyim?  Take from top = tepeden sıradan çek
Linear samplaning = linear örnekleme yap Draw randomly = rastgele seç Stratified sampling = tabakalı örnekleme
(kaliteye göre seç) Use random seed = nereden randoma başlayacağım?
Eğer sabit bir seed seçilirse hep aynı random gelir. Avantajı = hep aynı verileri seçecek. Birebir aynı olacak.

Partitioningdeki seeds i değiştir = 1541144411606 yap
OK de. Üstteki %70’tir. Bunu desicion tree’ye bağla.
Decision Tree Pretictor ekle. >> Partitioning’e bağla (alt kısmına)

Decision Tree Learner, öğreniyor ve if kuralları çıkartıyor. Desicion Tree Learner’ın sağındaki kareyi Decision Tree Predictore bağla.

Scorer Ekle >> Decision Tree Predictor sonuna bağla. Çift tıklayıp aç

Kalite ile Prediction (kalite) kıyaslanacak. Ok tıkla.
Scorer a sağ tıkla >> Execute and Open Views

Accuracy = %87,037 bu ölçümde %87 oranında başarı sağlanmıştır.
Error = 12,9’dur. 
54 taneden 47 tanesi doğru 7 tanesi yanlıştır. En çok hata 2dedir