Bu ders notunda, veri bilimi ve iş zekası alanlarında derinlemesine bir yolculuğa çıkacağız. Amacımız, bu alanlarda hiç bilgisi olmayan birinin orta düzeyde uzmanlık kazanmasını ve kendi uygulamalarını geliştirebilecek seviyeye gelmesini sağlamaktır.
Veri Bilimi Nedir?
Veri bilimi, yapılandırılmış ve yapılandırılmamış büyük veri setlerinden değerli bilgiler elde etmek için matematik, istatistik, bilgisayar bilimi ve alan uzmanlığını birleştiren disiplinler arası bir alandır.
Veri Biliminin Önemi
- Karar Verme: İşletmelerin veriye dayalı kararlar almasını sağlar.
- Rekabet Avantajı: Pazardaki trendleri ve müşteri davranışlarını analiz ederek rekabetçi kalmayı sağlar.
- İnovasyon: Yeni ürün ve hizmetlerin geliştirilmesine yardımcı olur.
Ana Sorumluluklar:
- Veri Analizi ve Yorumlama: Verileri analiz ederek anlamlı içgörüler elde etmek.
- Model Geliştirme: Makine öğrenmesi modelleri oluşturmak ve optimize etmek.
- Sonuçların İletişimi: Elde edilen bulguları teknik olmayan ekiplere aktarmak.
Gerekli Beceriler:
- Programlama Dilleri: Python, R, SQL.
- İstatistik ve Matematiksel Yetkinlik.
- Makine Öğrenmesi ve Derin Öğrenme Teknikleri.
Adımlar:
- Problemin Tanımlanması
- Veri Toplama ve Erişim
- Veri Ön İşleme ve Temizleme
- Keşifsel Veri Analizi
- Modelleme ve Algoritma Geliştirme
- Model Değerlendirme ve Doğrulama
- Sonuçların Sunumu ve Dağıtımı
Veri ön işleme, veri bilimi sürecinin en kritik adımlarından biridir. Kaliteli bir model için temiz ve düzenli veri şarttır.
Eksik Verilerin Türleri:
- MCAR (Completely at Random): Veri tamamen rastgele eksik.
- MAR (At Random): Eksiklik bazı gözlemlere bağlı.
- MNAR (Not at Random): Eksiklik gözlemlenemeyen bir nedenden kaynaklı.
Eksik Verileri İşleme Yöntemleri:
- Silme Yöntemleri:
- Listwise Deletion: Eksik verisi olan satırları tamamen silmek.
- Pairwise Deletion: Analizlerde sadece mevcut verileri kullanmak.
- Tahmin Yöntemleri:
- Ortalama veya Medyan ile Doldurma.
- Regresyon İmputasyonu.
- K-NN İmputasyonu.
Aykırı Değer Nedir?
Veri setindeki diğer gözlemlerden önemli ölçüde farklı olan değerlerdir.
Tespit Yöntemleri:
- Boxplot Grafikleri.
- Z-Skoru Hesaplama.
- IQR (Interquartile Range) Metodu.
Normalizasyon: Verileri 0 ile 1 arasına ölçeklendirme işlemidir.
Standardizasyon: Verilerin ortalamasını 0, standart sapmasını 1 olacak şekilde ölçeklendirme işlemidir.
One-Hot Encoding:
Kategorik değişkenleri ikili (binary) değişkenlere dönüştürür.
df_encoded = pd.get_dummies(df, columns=['cinsiyet', 'ülke'])
EDA, verileri daha iyi anlamak ve içgörüler elde etmek için kullanılan tekniklerin bütünüdür.
Ölçüler:
- Merkezi Eğilim Ölçüleri:
- Ortalama: Verilerin aritmetik ortalaması.
- Medyan: Verilerin ortanca değeri.
- Mod: En sık görülen değer.
- Dağılım Ölçüleri:
- Varyans: Verilerin ortalamadan ne kadar saptığı.
- Standart Sapma: Varyansın karekökü.
- IQR: Üst ve alt çeyrekler arası fark.
df['gelir'].describe()
- Histogramlar: Verilerin dağılımını gösterir.
- Kutu Grafikleri (Boxplot): Aykırı değerleri ve dağılımı gösterir.
- Dağılım Grafikleri (Scatterplot): İki değişken arasındaki ilişkiyi gösterir.
import matplotlib.pyplot as plt
import seaborn as sns
# Histogram
plt.hist(df['yas'])
plt.title('Yaş Dağılımı')
plt.show()
# Boxplot
sns.boxplot(x=df['gelir'])
plt.title('Gelir Dağılımı')
plt.show()
Korelasyon Katsayısı (Pearson):
İki değişken arasındaki doğrusal ilişkiyi ölçer.
- Değer Aralığı: -1 ile 1 arası.
- 1: Mükemmel pozitif ilişki.
- -1: Mükemmel negatif ilişki.
- 0: Hiçbir ilişki yok.
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True)
plt.show()