Özet (veya açıklayıcı) istatistikler, neredeyse her veri kümesini temsil etmek için kullanılan ilk rakamlardır. Ayrıca çok daha karmaşık hesaplamalar ve analizler için temel oluştururlar. Bu nedenle, basit yöntemlerden oluşmasına rağmen, analiz süreci için gereklidir. Bu eğitici, R’nin ortalama, standart sapma, aralık ve yüzdelikler dâhil özet istatistiklerini hesaplamak için kullanılabileceği yolları araştıracaktır. Ayrıca R komut kümesindeki en kullanışlı araçlardan biri olan özet fonksiyonu da tanıtılmıştır.
Eğitim Dosyaları
Başlamadan önce, bu öğreticide kullanılan sample data (.csv) indirmek isteyebilirsiniz. Dosyayı sağ tıkladığınızdan ve R çalışma dizininize kaydettiğinizden emin olun. Bu veri seti, 20 denek için varsayımsal yaş ve gelir verilerini içermektedir. Bu öğreticideki tüm kod örneklerinin, bu verilerin zaten bir R değişkenine okunduğunu ve eklendiğini varsaydığını unutmayınız.
Ortalama (Mean)
R de, mean(VAR) komutu ile izole bir değişken üzerinde bir ortalama hesaplanabilir; burada VAR, ortalamasını hesaplamak istediğiniz değişkenin adıdır. Alternatif olarak, mean(DATAVAR) komutu kullanılarak bir veri kümesindeki değişkenlerin her biri için bir ortalama hesaplanabilir; burada DATAVAR, verileri içeren değişkenin adıdır. Aşağıdaki kod örneği, ortalama fonksiyonunun her iki kullanımını gösterir.
Standart Sapma(Standard Deviation)
R içinde standart sapmalar ortalamalarla aynı şekilde hesaplanır. Tek bir değişkenin standart sapması sd(VAR) komutuyla hesaplanabilir; burada VAR, standart sapmasını almak istediğiniz değişkenin adıdır. Benzer şekilde, veri setindeki her bir değişken için standart sapma, sd(DATAVAR) komutu kullanılarak hesaplanabilir; burada DATAVAR, verileri içeren değişkenin adıdır. Aşağıdaki kod örneği, standart sapma işlevinin her iki kullanımını gösterir.
Aralık(Range)
Minimum ve Maksimum
Desene bağlı olarak, min (VAR) komutu kullanılarak tek bir değişken üzerinde minimum hesaplanabilir. Maksimum, max(VAR) üzerinden aynı şekilde çalışır. Bununla birlikte, ortalama ve standart sapma işlevlerinin aksine, min(DATAVAR) veya max(DATAVAR), her bir değişkenden değil, tüm veri kümesinden minimum veya maksimum değeri alır. Bu nedenle, daha yararlı bilgiler üretmek için minimum ve maksimumların veri kümelerinin tamamı yerine tek tek değişkenler üzerinde hesaplanması önerilir. Aşağıdaki örnek kod, min ve max işlevlerinin kullanımını gösterir.
Aralık(Range)
Belirli bir değişkenin aralığı, yani maksimum ve minimum değerleri, range(VAR) komutu kullanılarak bulunabilir. Min ve maks işlevlerinde olduğu gibi, range(DATAVAR) kullanmak çok yararlı değildir, çünkü her bir bağımsız değişkenden ziyade tüm veri kümesini dikkate alır. Sonuç olarak, aralıkların bireysel değişkenler üzerinde de hesaplanması tavsiye edilir. Bu işlem aşağıdaki kod örneğinde gösterilmiştir.
Yüzdelikler
Yüzdeliklerden Değerler (Kantiller)
Bir veri kümesi ve istenen bir yüzdelik değer verildiğinde, ilgili değer, quantile(VAR, c (PROB1, PROB2,…)) komutu kullanılarak bulunabilir. Burada VAR değişken ismini ifade eder ve PROB1, PROB2, vb. olasılık değerleri ile ilgilidir. Olasılıklar 0 ile 1 arasında olmalıdır, bu nedenle onları istenen yüzdeliklerin ondalık sürümlerine eşdeğer hale getirmelidir (% 50 = 0.5 gibi). Aşağıdaki örnek, bu işlevin istenen bir yüzdelik değere karşılık gelen veri değerini bulmak için nasıl kullanılabileceğini göstermektedir.
quantile(VAR) komutunun da kullanılabileceğini unutmayınız. Olasılıklar belirtilmediğinde, fonksiyon varsayılan olarak aşağıdaki örnekte gösterildiği gibi 0, 25, 50, 75 ve 100 yüzdelikleri hesaplamak için kullanılır.
Değerlerden Yüzdelikler (Yüzde Sıralaması)
Belirli bir değere karşılık gelen yüzdelik sıranın gerekli olduğu durumda, kişinin özel bir yöntem tasarlaması gerekir. Başlamak için, bir yüzdelik sıra hesaplamakla ilgili adımları göz önünde bulundurun.
Önceki adımlardan, yüzdelik bir sıra hesaplamak için formül türetilebilir: yüzdebirlik sırası = length(VAR[VAR <= VAL]) / length(VAR) * 100, burada VAR değişkenin adı ve VAL verilir değer. Bu formül length fonksiyonunu iki farklı şekilde kullanır. İlk length(VAR[VAR <= VAL]), bir değişkende verilen değerin altında olan veri noktalarının sayısını sayar. “<=” operatörünün, fonksiyonun farklı senaryolara uygulanacağını varsayarak diğer <,> ve = operatörlerinin kombinasyonlarıyla değiştirilebileceğini unutmayınız. İkinci length(VAR), değişkendeki toplam veri noktası sayısını sayar. Birlikte, yüzdelik sıra hesaplama işleminin birinci ve ikinci adımlarını gerçekleştirirler. Son adım, ondalık değeri bir yüzdeye dönüştürmek için bölümün sonucunu 100 ile çarpmaktır. Örnek bir yüzdelik sıra hesaplaması aşağıda gösterilmiştir.
Özet
summary(X) R’da çok kullanışlı çok amaçlı bir fonksiyondur. Burada X’, veri kümeleri, değişkenler ve doğrusal modeller de dahil olmak üzere birçok nesneden biri olabilir. Komut kullanıldığında, kendisine beslenen tek bir nesne ile ilgili özet veriler sağlar. Bu nedenle, summary işlevi, bağımsız değişken olarak ne tür bir nesne aldığına bağlı olarak farklı çıktılara sahiptir. Yaygın olarak uygulanabilir olmanın yanı sıra, bu yöntem değerlidir, çünkü genellikle özet istatistikler açısından tam olarak neye ihtiyaç duyulursa onu sağlar. summary(X) ‘in nasıl kullanılabileceğine dair birkaç örnek aşağıdaki kod blokunda göösterilmiştir. R’deki verilerinizi analiz etmenin yollarını keşfederken özet komutunu sık sık kullanmanızı öneririz. Bu işlev R Tutorial Series’de yeniden ziyaret edilecektir.
Önceki özetin çıktısı aşağıda gösterilmiştir.
Tam Özet İstatistik Analizi
Özet istatistiklerinin R’deki verileri analiz etmek için nasıl kullanılabileceğinin tam bir örneğini görmek için lütfen metin dosyasını indirin.