Weka | Müşterinin Borcunu Ödeyip Ödemeyeceğini Tahmin Etme


Merhaba arkadaşlar bir önceki yazımda Weka’ya verilerimizi nasıl yükleyeceğimizi anlatmıştım. Bu yazımda ise örnek bir uygulama yapacağız. Uygulamada kullanacağımız verilerimizi Kaggle’dan indireceğiz. Bu yazımda Kaggle’ın veri bilimcileri ağı olmakla birlikte aynı zamanda zengin bir açık veri seti platformu olduğundan ve içeriğinden bahsetmiştim. Bu sebeple içeriğine fazla girmeden datasets  kısmından uygulamamızda kullanacağımız veri setimizi indireceğiz. Datasets kısmına tıkladıktan sonra gelen search alanına “Loan Data ” yazarak verimizi aratarak aşağıdaki görseldeki veri setine tıklıyoruz.

Daha sonra gelen ekranda Download yazılı olan yere tıklayarak veri setimizi indiriyoruz.

Kaggle üzerinden verimizi aldığımıza göre Weka’yı açarak uygulamamıza başlayabiliriz. Öncelikle verimizi import etmeliyiz. Open File sekmesine tıklayarak verimizin  bulunduğu alanı seçerek verilerimizi  getiriyoruz.  Edit sekmesine tıkladığımızda ise verilerimizi aşağıdaki şekildeki gibi görebiliriz.

Veri setimizin birkaç niteliklerine baktığımızda loan_status kısmında yer alan Paidoff borcun ödendiğini, Collection’lar borun ödenmediğini,  collection_paıdoff’lar ise gecikmeli ödemeler anlamına gelmektedir. Principal ana para tutarı , terms ise kaç günlük kredi alındığını göstermektedir . Bu niteliklerin yanında diğer nitelikleri de dikkate alarak müşterilerin borcunu ödeyip ödemeyeceğini tahmin etmeye çalışacağız.

Veri dosyaları üzerinde çalışırken modelin geliştirildiği verilerle modelin test edildiği verilerin farklı olması istenir . Literatürde 2/3’si eğitim 1/3’i de test için kullanılmakta. Weka’da Classify kısmına geldiğimizde 4 seçenek karşımıza çıkmaktadır.

Use training set :  Analiz yaptığımız veriler ile modeli geliştirdiğimiz veriler daha sonradan modelin test edildiği veriler olarak kullanılmakta. Daha açıklayıcı bir ifade kullanmak gerekirse bizim veri setimizde 500  örnek yer almakta. Bu seçenek 500 örnekle (instances) modeli geliştiriyor daha sonra aynı 500 örnekle modeli test ediyor.

Supplied test set: Bu seçeneği kullanabilmek için test verilerinizin ayrı train yani eğitim verilerinizin ayrı yüklenmesi gerekmektedir.

Cross-validation :  Bu seçeneğin kenarında bulunan 10 değerinin anlamı verilerimizi 10 parçaya bölmesi.  9 parçasıyla model geliştirirken kalan 1 parçasınıda verileri test etmek için kullanmaktadır.

Percentage split:  Bu seçenek verilerimizi rastgele bölmekte. Bir kısmı üzerinde modeli geliştirirken diğer kısımda modeli test ediyor. %66 olarak yazmasının sebebi de en iyi oranın bu olduğunun varsayılması.

Biz de uygulamamızda percentage split seçeneğini kullanacağız. Ama ondan önce sınıflandırma algoritmamızı seçmemiz gerekiyor. Bunun için Choose butonuna tıklayarak trees’in altındaki J48 algoritmasını seçeceğiz.

Algoritmayı seçtikten sonra aşağıdaki görselde olduğu gibi loan_status niteliğini seçip Start dediğimizde algoritmamız çalışacaktır.

Algoritmamızın başarı oranı %73 olarak bulundu.

Çıkan sonuçları yorumladığımızda;

–  99 tane paıdoff ‘un 99’unu doğru tahmin etmiş,

– 34 collection’ın 26’sını doğru tahmin ederken  8 ‘ini paıdoff olarak tahmin etmiş.

– 37 collectıon_paıdoff’un 36’sını paıdoff olarak tahmin ederken 1’ini collectıon olarak tahmin etmiş.

Bir sonraki yazımda görüşmek üzere. Takipte kalın 🙂

Weka | Müşterinin Borcunu Ödeyip Ödemeyeceğini Tahmin Etme

Giriş Yap

Hoşgeldin
Don't have an account?
Kayıt Ol

Şifreni Yenile

Back to
Giriş Yap

Kayıt Ol

Ekimize Katılmaya Hazırmısın

Back to
Giriş Yap
Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals