Knıme Örnek Uygulama-3


Merhaba arkadaşlar, bu yazımda Knıme ortamında örnek uygulama yapacağız. Bir önceki yazımda verilerimizi Knime ortamına nasıl yükleyeceğimizden bahsetmiştim. Uygulamamızda kullanacağımız veri setimizi Kaggle platformundan indireceğiz. Uygulamaya geçmeden önce kısaca Kaggle’dan bahsetmek istiyorum.

KAGGLE NEDİR? Kaggle, Nisan 2010’da Anthony Goldbloom tarafından kurulan San Francisco merkezli veri bilimcileri ağı olmakla birlikte aynı zamanda zengin bir açık veri seti platformudur. Kaggle, makine öğrenmesi (machine learning) ve veri bilimi (data science) denilince akla gelen ilk sitelerden biridir. Kaggle platformuna sosyal ağlarınız veya gmail adresiniz ile kayıt yaparak giriş yapabilirsiniz. Sitede belli başlıklar yer almaktadır.

 

Competitions: Birçok kurumsal şirketin, Kaggle üzerinden açmış olduğu yarışmalar bu bölümdedir. Bu yarışmalar genellikle para ödüllü olmakla beraber, bazıları da işe alım amacıyla şirketlerin oluşturmuş oldukları yarışmalardır.  Kaggle üye olduktan sonra bu yarışmalara ücretsiz bir şekilde katılabilirsiniz.

Datasets: Veri setlerinin olduğu bölümdür.

Kernels: Çekirdek anlamına gelen Kernel kod yazılan alandır.

Discussion: Kullanıcıların belli konular hakkında tartıştıkları, yorum yaptıkları bölümdür.

Üzerinde çalıştığınız veya yeni yüklediğiniz veri setinizi düzgün bir şekilde açıklar ve public olarak yayınlarsanız daha sonra insanlar veri setinizi kullanıp başka problemleride çözebilir ya da mevcut çalışmanıza yorumlar yapabilirler. Bende ilk kernel’ımı Kaggle sayfama yüklemiş bulunmaktayım. Bu adresten (https://www.kaggle.com/usengecoder/introduction-to-data-science) yapmış olduğum çalışmayı inceleyebilirsiniz 🙂

Knıme Örnek Uygulama

Kaggle’ın dataset bölümüne girerek aşağıdaki görselde olduğu gibi search alanına ” Iris  ” yazarak veri setimizi aratıyoruz.  Birinci sırada yer alan veri setine tıklayarak gelen ekrandan indirme simgesine tıklayarak veri setimizi indiriyoruz.

Veri setimiz hakkında bilgi vermek gerekirse Iris veri seti  bu alanda kullanılan en popüler veri setidir. Iris veri seti 3 Iris bitki türüne (Iris setosaIris virginica and Iris versicolor) ait özellikleri barındırmaktadır. Her bir örnek için 4 özellik tanımlanmıştır: taç yaprak uzunluğu, taç yaprak genişliği, çanak yaprak genişliği, taç yaprak genişliği. Bitki türü ismi bağımlı değişken, bitkilerin ölçülen 4 temel özelliği ise bağımsız değişkenleri ifade eder. Veri setimiz hakkında bilgi edindiğimize göre Knıme geçerek uygulamamıza başlayabiliriz. Bu uygulamamızda Decision Tree algoritmasını kullanarak bitkilerimizin türünü prediction (tahmin) yapmaya çalışacağız.

Yapacağımız çalışmanın son hali aşağıdaki gibidir. Şimdi adım adım neler yapacağımızı anlatacağım.

  • Öncelikle veri setimiz csv uzantılı olduğu için Node Repository – IO – Read-  Csv Reader ‘ı workflow alanına sürükleyip bırakıyoruz. Csv Reader node’una sağ tıklayıp Confıgure diyerek Browse’dan veri setimizi bulup sisteme yüklüyoruz.
  • Cross Validation yöntemini kullanacağız. Cross Validation verinin tamamını eğitim ve test için kullanmaktadır. Daha sonra X-Partitioner node’ını Csv Reader’a bağlıyoruz. X-Partitioner’a sağ tıklayıp confıgure dediğimizde Number Of validation değeri 10 olmalıdır. Bu şekilde verimizi 10 eşit parçaya bölüyor. 1 parçasını test 9 parçasını train için kullanıyoruz.
  • Decision Tree Learner’a neyi öğreneceğini söylememiz gerekiyor. Sağ tıklayıp Confıgure dediğimizde Class column alanını Species olarak seçiyoruz.
  • Cross validation Decision Tree Learner’a girecek öğrendiğine göre predict edecek. Bunun için Decision Tree Predictor ‘ı workflow alanına getiriyoruz
  • Ve bu verileri birleştirmek için X-Aggregator’ı da workflow alanına ekliyoruz.

Programı çalıştırıp Decision Tree Predictor sağ tıklayıp Classified Data dediğimizde elde ettiğimiz sonuçları göreceğiz. Species kolonunda gerçek verilerimiz Prediction(Species) kolonunda ise makinenin tahmin ettiği değerler yer almaktadır.

Algoritmanın başarısını görmek için Scorer’ı kullanıyoruz. Aşağıdaki görseli yorumlayacak olursak; Iris-setosa’dan 50 tane sample var ve tamamını doğru tahmin etmiş. Iris-versicolor’dan da 50 tane var bunlardan 45 tanesini doğru tahmin etmiş 5 tanesini Iris-virginica olarak tahmin etmiş. Son olarak Iris-virginicadan 46 tane doğru olarak tahmin etmiş ama 4 tanesini Iris-versicolor olarak tahmin etmiş.

Evet arkadaşlar böylelikle uygulamamızı yapmış olduk. Uygulamayla ilgili sorularınız olursa yorum kısmında belirtirseniz yardımcı olmaya çalışırım. Bir sonraki yazımda görüşmek dileğiyle. Takipte kalın 🙂

Knıme Örnek Uygulama-3

Giriş Yap

Hoşgeldin
Don't have an account?
Kayıt Ol

Şifreni Yenile

Back to
Giriş Yap

Kayıt Ol

Ekimize Katılmaya Hazırmısın

Back to
Giriş Yap
Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals