Basit doğrusal regresyon, bağımlı bir değişkenin sonucunu tahmin etmek için yalnız bir bağımsız değişken kullanır. Regresyonun en temel şekli olan bu anlayışla çok sayıda karmaşık modelleme tekniği öğrenilebilir. Bu eğitimde R’nin basit doğrusal regresyon gerçekleştirmek için nasıl kullanılabileceğini inceleyeceğiz.
Başlamadan önce, bu öğreticide kullanılan örnek verileri (.csv) indirmek isteyebilirsiniz. Dosyayı sağ tıkladığınızdan ve R çalışma dizininize kaydettiğinizden emin olun. Bu veri seti New Mexico Üniversitesi’nde lisans kaydını tahmin etmek için kullanılan bilgileri içermektedir (Kurumsal Araştırma Ofisi, 1990). Bu öğreticideki tüm kod örneklerinin, bu verilerin zaten bir R değişkenine okunduğunu ve eklendiğini varsaydığını unutmayın.
R’de lm() veya “doğrusal model” fonksiyonu basit bir regresyon modeli oluşturmak için kullanılabilir. lm() fonksiyonu bir dizi argümanı kabul eder (“Doğrusal Modellerin Yerleştirilmesi” n.d.). Aşağıdaki listede en sık kullanılan iki parametre açıklanmaktadır.
Formula argümanının belirli bir biçimi izlediğini unutmayın. Basit doğrusal regresyon için bu, YVAR‘ın bağımlı veya öngörülen değişken olduğu ve XVAR’ın bağımsız veya öngörücü değişken olduğu “YVAR ~ XVAR” dır.
Yeni oluşturulan bir doğrusal modeli bir değişkene kaydetmeniz önerilir. Böylece model, her seferinde lm() fonksiyonunun tamamını yeniden yazmak zorunda kalmadan sonraki hesaplamalarda ve analizlerde kullanılabilir. Aşağıdaki örnek kod, doğrusal bir modelin nasıl oluşturulacağını ve bir değişkene nasıl kaydedileceğini gösterir. Bu özel durumda, sonbahar kaydını (ROLL) tahmin etmek için işsizlik oranını (UNEM) kullanıyoruz.
Önceki fonksiyonun çıktısı aşağıda gösterilmiştir.
Bu çıktıdan, kesme noktasının 3957 ve işsizlik oranı katsayısının 1134 olduğunu belirledik. Bu nedenle, tam regresyon denklemi Sonbahar Kaydı = 3957 + 1134 * İşsizlik Oranıdır. Bu denklem bize New Mexico Üniversitesi için öngörülen sonbahar kaydının işsizlik oranındaki her yüzde bir artış için 1134 öğrenci artacağını söylüyor. Bu yılın %9’luk işsizlik oranı göz önüne alındığında, araştırma sorumuzun beklenen sonbahar kaydının ne olduğunu sorduğunu varsayalım. Aşağıdaki gibi, bu sorunun cevabını hesaplamak için regresyon denklemini kullanabiliriz.
Doğal olarak, basit doğrusal regresyon sadece beklenen değerleri hesaplamaktan daha fazlasını yapmak için kullanılabilir. Burada, summary(NESNE) fonksiyonu kullanışlı bir araçtır. Doğrusal bir modelden türetilmesi gereken istatistiksel bilgilerin çoğunu üretebilir. Aşağıdaki örnek, özet fonksiyonunun doğrusal bir model değişkeni üzerinde kullanımını göstermektedir.
Önceki fonksiyonun çıktısı aşağıda gösterilmiştir.
summary(NESNE) fonksiyonu bize t-testi, F-testi, R-karesi, artık ve önem değerleri dahil olmak üzere çok sayıda bilgi sağlamıştır. Tüm bu veriler doğrusal modelimizle ilgili önemli araştırma sorularını cevaplamak için kullanılabilir. Yine, summary(NESNE) fonksiyonu değerli bir kaynak olduğunu kanıtlamaktadır. R’de çeşitli analizler yaparken hatırlamak ve kullanmak önemlidir.
Bu sunumda lm() kullanılmış olsa da, R’de glm() ve rlm() gibi alternatif modelleme fonksiyonlarının bulunduğuna dikkat edin. Benzersiz durumunuza bağlı olarak, regresyon analizinizi nasıl yapacağınızı seçmeden önce lm()‘ye alternatifleri araştırmak faydalı veya gerekli olabilir.
R’de basit doğrusal regresyonun nasıl gerçekleştirilebileceğinin tam bir örneğini görmek için lütfen basit doğrusal regresyon örnek (.txt) dosyasını indirin.
Kaynak: https://www.r-bloggers.com/r-tutorial-series-simple-linear-regression/
Not: Yazının orjinalinde bahsi geçen veri setine artık erişim bulunmamaktadır. Erişim sitemizden sağlanmıştır. A. Demiriz.