Python ile Veri Analizi İçin Temel Örnek Kodlar: Başlangıç Rehberi

Temel Veri İşleme İşlemleri

Veri analizi süreci, genellikle verilerin toplanmasıyla başlar, ancak bu verilerin işlenmesi ve anlaşılması, analiz aşamasında önemli bir role sahiptir. Python, veri analizi için mükemmel bir araçtır ve bu bölümde, verilerin nasıl etkili bir şekilde işleneceğine dair bazı temel işlemleri inceleyeceğiz.

1. Pandas Kütüphanesi ile Tanışma

Veri işleme için en yaygın kullanılan Python kütüphanesi Pandas'dır. Pandas, veri yapıları ve analiz araçları sunarak veri tabanları ve Excel dosyaları gibi verilerle rahatça çalışmanıza olanak tanır.

import pandas as pd

# Örnek CSV dosyasını yükleyelim
data = pd.read_csv('veriler.csv')

Bu kod, bir CSV dosyasındaki verileri bir DataFrame'e yükler. DataFrame, satır ve sütunları olan bir veri yapısıdır ve veriler üzerinde işlem yaparken oldukça kullanışlıdır.

2. Veri Temizleme

Veri analizi sürecinin belki de en kritik aşaması, verilerin temizlenmesidir. Eksik veya hatalı veriler, yapılan analizleri olumsuz etkiler. Pandas kullanarak eksik değerleri bulup temizlemek oldukça kolaydır.

# Eksik değerleri kontrol et
print(data.isnull().sum())

# Eksik değerleri kaldır
data_cleaned = data.dropna()

Bu örnekte, isnull() metodu ile eksik değerlerin sayısını kontrol ediyoruz; ardından dropna() metodu ile bu değerleri içeren satırları kaldırıyoruz.

3. Veri Dönüşümü

Verilerinizi analiz etmeden önce, bazı dönüşümler yapmanız gerekebilir. Örneğin, verilerin türlerini değiştirmek veya belirli bir formatta yeniden düzenlemek isteyebilirsiniz.

# 'date' sütununu datetime formatına çevir
data['date'] = pd.to_datetime(data['date'])

# 'price' sütununu float formatına çevir
data['price'] = data['price'].astype(float)

Bu kod parçası ile tarih ve fiyat verilerimizi uygun formatlara dönüştürerek analiz için uygun hale getiriyoruz.

4. Veri Filtreleme

Analiz sırasında, belirli koşullara uyan verileri seçmek gerekebilir. Pandas ile bu işlem oldukça basittir.

# Fiyatı 1000'den büyük olanları filtrele
high_price_data = data[data['price'] > 1000]

Yukarıdaki kodda, fiyatı 1000'den büyük olan tüm satırları içeren yeni bir DataFrame oluşturuyoruz. Bu tür filtrelemeler, belirli veriler üzerinde daha detaylı analizler yapmanıza yardımcı olur.

5. Veri Gruplama

Verilerinizi gruplayarak toplamlar, ortalamalar veya diğer istatistiksel değerler hakkında bilgi sahibi olabilirsiniz. Bu işlem, verilerinizi anlamanın güçlü bir yoludur.

# 'category' sütununa göre gruplarken toplam fiyat hesaplayalım
grouped_data = data.groupby('category')['price'].sum()

Bu kod, verileri category sütununa göre gruplayarak her kategori için toplam fiyatı hesaplar. Böylece hangi kategorilerin daha fazla gelir getirdiğini görebiliriz.

6. Veri Görselleştirme

Veri işlemeyle beraber, veriyi görselleştirmek de önemlidir. Matplotlib ya da Seaborn gibi kütüphanelerle verilerinizi grafikler halinde sunabilirsiniz.

import matplotlib.pyplot as plt

# Gruplama sonuçlarını çubuk grafiği olarak göster
grouped_data.plot(kind='bar')
plt.title('Kategori Bazında Toplam Fiyat')
plt.xlabel('Kategori')
plt.ylabel('Toplam Fiyat')
plt.show()

Bu basit görselleştirme ile verilerinizin görsel temsilini elde eder, analizlerinizi daha etkili hale getirirsiniz.

Veri analizi sürecinin temel adımlarını bu şekilde özetleyebiliriz. Pandas ile yapacağınız bu işlemler sayesinde, verilerinizi etkili bir şekilde işleyerek derinlemesine analizler yapabilirsiniz. Unutmayın, veri nedir? Sadece sayılar değil, içindeki potansiyel bilgidir!

Verilerin Yüklenmesi ve İncelenmesi

Python ile veri analizi yapmak için ilk adım, verilerinizi yüklemek ve incelemektir. Veri analizi süreçlerinde, verilerinizi doğru bir şekilde yüklemek ve anlamak, sağlam insights elde etmenin anahtarıdır. Bu bölümde, verilerinizi nasıl yükleyeceğinizi ve bunları incelemenin yollarını keşfedeceğiz.

Verilerin Yüklenmesi

Çoğu veri analizi projesinde, veriler genellikle CSV, Excel veya SQL gibi formatlarda gelir. Python, bu veri kaynaklarını kolayca işlemek için birçok güçlü kütüphane sunmaktadır. İşte en yaygın kullanılan yöntemlerden bazıları:

  1. Pandas Kütüphanesi ile CSV Dosyası Yüklemek:

    import pandas as pd
    
    df = pd.read_csv('veri_dosyası.csv')
    

    Yukarıdaki kod, belirtilen dosyayı Pandas DataFrame olarak yükler. Bu yapı, veri analizi için oldukça elverişlidir.

  2. Excel Dosyası Yüklemek:

    Python, Excel dosyalarıyla da sorunsuz çalışabilir. Aşağıdaki örneği inceleyelim:

    df = pd.read_excel('veri_dosyası.xlsx', sheet_name='Sayfa1')
    
  3. SQL Veritabanından Veri Çekmek:

    Eğer verileriniz bir veritabanında saklanıyorsa, aşağıdaki örnek kullanışlı olacaktır:

    import sqlite3
    
    conn = sqlite3.connect('veritabanı_dosya.db')
    df = pd.read_sql_query('SELECT * FROM tablo_adi', conn)
    
Yüklenen Verilerin İncelenmesi

Verileri yükledikten sonra, başlangıçta yapmanız gereken ilk şey, bu verileri incelemektir.

  • Temel Bilgiler:

    DataFrame’iniz hakkında hızlı bir bilgi almak için aşağıdaki kodu kullanabilirsiniz:

    df.info()
    

    Bu komut, veri tipusunu, eksik değerleri ve toplam kayıt sayısını gösterir.

  • İlk Satırları Görüntülemek:

    Verinizi anlamak için ilk birkaç satırı inceleyebilirsiniz. Bunun için aşağıdaki komut işinize yarayacaktır:

    print(df.head(5))
    
  • Tanımlayıcı İstatistikler:

    Verilerin istatistiksel dağılımını görmek için:

    print(df.describe())
    

    Bu komut, sayısal verilerinizin ortalama, standart sapma, minimum, maksimum ve yüzde değerleri gibi temel istatistiklerini gösterir.

Eksik Verilerin Kontrolü

Veri analizi sırasında eksik verilerin tespiti oldukça kritiktir. Pandas ile eksik verileri tespit etmek için aşağıdaki kodu kullanabilirsiniz:

print(df.isnull().sum())

Bu komut, her sütundaki eksik değerlerin sayısını gösterir ve verilerinizin temizlenmesi gereken alanlarını belirlemenizi sağlar.

Verilerin Görselleştirilmesi

Verilerinizi daha iyi anlamak için görselleştirme tekniklerini de kullanmalısınız. İşte temel görselleştirme için Matplotlib kütüphanesini kullanabileceğiniz basit bir örnek:

import matplotlib.pyplot as plt

df['sütun_adi'].hist(bins=30)
plt.xlabel('Sütun Adı')
plt.ylabel('Frekans')
plt.title('Frekans Dağılımı')
plt.show()

Bu basit histogram, belirli bir sütundaki verilerin dağılımını görsel olarak temsil eder ve verilerinizi anlamanıza yardımcı olur.

Verilerinizi yüklemek ve incelemek, veri analizi sürecinin en kritik aşamalarından birisidir. Yukarıda paylaşılan yöntemler, veri setlerinizi anlamak için sağlam bir temel oluşturacaktır. Unutmayın, iyi bir başlangıç, başarılı bir analizin yarısıdır!

Görselleştirme Yöntemleri

Veri analizi yaparken en önemli adımlardan biri, elde ettiğiniz bulguları etkili bir şekilde görselleştirmektir. Görselleştirme, karmaşık verilerin daha anlaşılabilir hale gelmesini sağlar ve aynı zamanda verilerin sunumunu daha çekici kılar. Python, güçlü kütüphaneler sayesinde çeşitli görselleştirme yöntemleri sunar. Bu bölümde, sıkça kullanılan bazı görselleştirme yöntemlerini ve bu yöntemlerin nasıl kullanılacağını keşfedeceğiz.

Matplotlib ile Temel Grafikler

Matplotlib, Python'un en popüler görselleştirme kütüphanelerinden biridir. Basit grafikler oluşturmanın yanı sıra, karmaşık görselleştirmeler yapmanıza da olanak tanır. İşte bazı temel grafik türleri:

  • Çizgi Grafikleri: Zaman serisi verilerini gösterir. Örneğin, hisse senedi fiyatlarının zaman içindeki değişimi.

    import matplotlib.pyplot as plt
    
    zaman = [1, 2, 3, 4, 5]
    degerler = [10, 15, 7, 10, 5]
    
    plt.plot(zaman, degerler)
    plt.title("Zaman Serisi Grafiği")
    plt.xlabel("Zaman")
    plt.ylabel("Değerler")
    plt.show()
    
  • Çubuk Grafikleri: Kategorik verileri karşılaştırmada etkilidir. Örneğin, farklı ülkelerin nüfusları.

    ülkeler = ['Türkiye', 'Almanya', 'Fransa']
    nüfus = [84, 83, 67]
    
    plt.bar(ülkeler, nüfus)
    plt.title("Ülkelere Göre Nüfus")
    plt.xlabel("Ülkeler")
    plt.ylabel("Nüfus (Milyon)")
    plt.show()
    
Seaborn ile İleri Düzey Görselleştirme

Seaborn, Matplotlib üzerine kurulmuş bir kütüphanedir ve estetik açıdan daha hoş görünen grafikler oluşturmanıza yardımcı olur. Özellikle istatistiksel verilerin analizi ve görselleştirilmesi için idealdir.

  • Isı Haritaları: Veri setindeki korelasyonları görselleştirmek için kullanılır.

    import seaborn as sns
    import numpy as np
    
    veriler = np.random.rand(10, 12)
    sns.heatmap(veriler, cmap='coolwarm')
    plt.title("Isı Haritası")
    plt.show()
    
  • Dörtgen Grafikleri (Box Plot): Verinin dağılımını gösterir ve aykırı değerleri tespit etmede kullanışlıdır.

    veri = [np.random.normal(size=100) for _ in range(4)]
    sns.boxplot(data=veri)
    plt.title("Dörtgen Grafiği")
    plt.xlabel("Gruplar")
    plt.ylabel("Değerler")
    plt.show()
    
Plotly ile Etkileşimli Grafikleri

Plotly, etkileşimli grafikler oluşturmanıza imkan tanır. Kullanıcı, grafik üzerinde etkileşimde bulunarak daha fazla bilgi edinebilir. Özellikle web tabanlı projelerde tercih edilen bir kütüphanedir.

  • Etkileşimli Çizgi Grafiği: Kullanıcıların zaman serisi verilerine daha fazla derinlemesine dalmasını sağlar.

    import plotly.graph_objs as go
    
    fig = go.Figure(data=go.Scatter(x=zaman, y=degerler, mode='lines+markers'))
    fig.update_layout(title='Etkileşimli Zaman Serisi Grafiği', xaxis_title='Zaman', yaxis_title='Değerler')
    fig.show()
    

Görselleştirme ile verilerinizi sadece sunmakla kalmaz, aynı zamanda izleyicilerinize etkili bir şekilde mesajınızı iletmenizi sağlarsınız. Matplotlib, Seaborn ve Plotly gibi kütüphanelerle bu süreci oldukça kolaylaştırabilirsiniz. Her araç, kendi avantajlarını sunar ve projelerinizin ihtiyaçlarına göre uygun olanı seçmek, veri analizi ve sunumunda büyük bir fark yaratır.

Python'a Giriş ve Kurulum

Python, modern yazılım geliştirme dünyasında oldukça popüler bir programlama dilidir. Gelişmiş kütüphaneleri, sade sözdizimi ve geniş topluluğu sayesinde veri analizi gibi uygulamalarda sıklıkla tercih edilmektedir. Eğer Python ile veri analizi yapmaya başlamak istiyorsanız, ilk adım olarak Python kurulumu ve temel bilgileri öğrenmek önemlidir. İşte bu yolculukta size rehberlik edecek temel bilgileri ve adımları sunuyoruz.

Python Nedir?

Python, yüksek seviyeli, yorumlanabilir ve nesne yönelimli bir programlama dilidir. 1991 yılında Guido van Rossum tarafından geliştirilmiştir. Python’un en dikkat çekici özelliklerinden bazıları:

  • Kolay öğrenilebilirlik: Sade ve okunabilir sözdizimi ile programlamaya yeni başlayanlar için idealdir.
  • Zengin kütüphane desteği: Veri analizi, makine öğrenimi, web geliştirme gibi birçok alanda yardımcı olacak kütüphanelere sahiptir.
  • Çapraz platform desteği: Hem Windows, hem macOS, hem de Linux sistemlerinde çalışabilir.
Python Kurulumu

Python’u bilgisayarınıza kurmak için aşağıdaki adımları takip edebilirsiniz:

  1. Python Resmi Web Sitesini Ziyaret Edin:
    Python'un en güncel sürümünü indirmek için python.org adresini ziyaret edin.

  2. Sürümü Seçin:
    Genellikle en son sürümü tercih etmeniz önerilir. Python 3.x sürümünü indirmenize dikkat edin, çünkü Python 2.x sürümü artık desteklenmemektedir.

  3. İndirin ve Kurun:
    İndirme işlemi tamamlandığında, indirdiğiniz dosyayı açın ve kurulum sihirbazını takip edin. Kurulum sırasında "Add Python to PATH" seçeneğini işaretlemeyi unutmayın; bu, Python’un komut istemcisi üzerinden çalıştırılmasını sağlar.

  4. Kurulumu Doğrulayın:
    Kurulumun başarılı olup olmadığını kontrol etmek için terminal veya komut istemcisine aşağıdaki komutu yazın:

    python --version
    

    Eğer kurulum başarılıysa, yüklü Python sürümünü göreceksiniz.

Geliştirme Ortamının Hazırlanması

Python ile çalışmak için yeteneklerinizi geliştirebileceğiniz bir geliştirme ortamı oluşturmak önemlidir. Bunun için aşağıdaki adımları izleyebilirsiniz:

  • IDE Seçimi: Python kodları yazmak için bir IDE (Entegre Geliştirme Ortamı) seçin. Önerilen IDE'lerden bazıları:

    • PyCharm
    • Visual Studio Code
    • Jupyter Notebook (özellikle veri analizi için popülerdir)
  • Kütüphaneleri Yükleme: Veri analizi yapacak iseniz, popüler kütüphaneleri yüklemek için pip kullanabilirsiniz. Örneğin:

    pip install numpy pandas matplotlib seaborn
    

    Bu kütüphaneler, veri analizi ve görselleştirme için oldukça kullanışlıdır.

Python ile İlk Projenizi Oluşturun

Artık Python’yu kurduğunuza göre, ilk projenizi oluşturma aşamasına geçebilirsiniz.

  1. Basit bir “Hello, World!” uygulaması ile başlayabilirsiniz:

    print("Hello, World!")
    
  2. Daha sonra, basit veri analizi projeleri ile kendinizi geliştirebilirsiniz. Bu projelerde pandas ve numpy gibi kütüphaneleri kullanarak veri setlerini analiz etmeye başlayabilirsiniz.

Python ile veri analizi yapma yolculuğunuz burada başlıyor. Kurulumu tamamladıktan sonra, yaratıcı projelerle deneyim kazanacak ve veri bilimcisi olma yolunda ilerleyeceksiniz. Unutmayın, sürekli pratik yaparak ve yeni kütüphaneler keşfederek kendinizi geliştirebilirsiniz!

Veri Analizi İçin Gerekli Kütüphaneler

Veri analizi yaparken doğru araçları seçmek, sürecin verimliliğini ve sonuçların etkileyiciliğini doğrudan etkiler. Python, geniş bir kütüphane yelpazesine sahip olması sayesinde veri analizi için ideal bir dil olarak öne çıkıyor. İşte veri analizi için en fazla kullanılan Python kütüphaneleri:

NumPy

NumPy (Numerical Python), Python'da bilimsel hesaplamalar yapmanıza olanak tanıyan bir kütüphanedir. Temel özellikleri arasında:

  • Hızlı Dizi İşlemleri: NumPy, çok boyutlu dizilerle hızlı ve etkili bir şekilde çalışabilmenizi sağlar.
  • Matematiksel Fonksiyonlar: Temel matematiksel işlemler için yerleşik fonksiyonlar içerir.
  • Dizilerin Manipülasyonu: Dizilerin yeniden şekillendirilmesi, bölünmesi ve birleştirilmesi gibi işlemleri kolaylaştırır.

NumPy, veri analizi sürecinizin bel kemiğini oluşturarak, verilerinizi hızla işleyebilmenizi sağlar.

Pandas

Pandas, veri analizi için en popüler kütüphanelerden biridir ve veri yapıları ile veri analizi araçları sunar. Pandas'ın temel özellikleri şunlardır:

  • Veri Çerçeveleri: Kullanıcı dostu veri çerçeveleri sayesinde verileri kolaylıkla işleyebilir ve analiz edebilirsiniz.
  • Veri Temizleme ve Dönüştürme: Eksik verileri işleme, veri biçimlendirme gibi işlemleri hızla gerçekleştirmenize olanak tanır.
  • Zengin Veri Kaynakları ile Entegrasyon: Farklı veri kaynaklarından (CSV, Excel, SQL vb.) hızlı bir şekilde veri çekmenizi sağlar.

Pandas, karmaşık verileri anlamlı bir hale getirmenizde büyük bir destek sağlar.

Matplotlib

Veri analizi, sadece verileri işlemekle kalmaz; aynı zamanda bu verileri etkili bir şekilde görselleştirmeyi de gerektirir. Matplotlib, veri görselleştirme konusunda en çok tercih edilen kütüphanelerden biridir. Öne çıkan özellikleri arasında:

  • Esnek Grafik Oluşturma: Çizgi grafikleri, çubuk grafikleri ve daha fazlasını oluşturmanıza olanak tanır.
  • Özelleştirme Seçenekleri: Grafikleri özelleştirerek daha okunabilir ve ilgi çekici hale getirebilirsiniz.
  • Figürlerle Interaktif Çalışma: Görselleştirmeleri etkileşimli hale getirerek veri analizinize derinlik katabilir.

Matplotlib sayesinde, analiz ettiğiniz verileri görsel olarak sunma konusunda ciddi bir avantaj elde edersiniz.

Seaborn

Seaborn, Matplotlib’in üzerine inşa edilmiş bir kütüphanedir ve daha karmaşık görselleştirmeleri kolaylaştırır. Aşağıdaki özellikler, Seaborn'u öne çıkarır:

  • İleri Düzey İstatistiksel Görselleştirme: İstatistiksel verilerin görsel olarak sunulmasında mükemmeldir.
  • Daha Şık ve Modern Grafiker: Takım renkleri ve stiller sayesinde görselleştirmelerinizi daha estetik hale getirir.
  • Kategorik Verilerle Çalışma: Kategorik verilerin görselleştirilmesine yönelik güçlü araçlar sunar.

Seaborn, verilerinizi çekici bir biçimde sunmak isteyenler için vazgeçilmez bir kütüphanedir.

SciPy

SciPy, bilimsel ve mühendislik alanlarında kapsamlı fonksiyonlar sunan bir kütüphanedir. Önemli bileşenleri arasında:

  • İstatistiksel Analiz: Temel istatistiksel fonksiyonlar ve testler sunar.
  • Optimizasyon Fonksiyonları: Matematikseldir ve probleme dayalı çözümler sunar.
  • İleri Düzey Matematiksel Fonksiyonlar: Diferansiyasyon, entegrasyon ve lineer cebir gibi işlemler için kullanılır.

SciPy, daha karmaşık algoritmalar ve yöntemlerle veri analizinizi derinleştirir.

Scikit-learn

Makine öğrenimi uygulamalarında çok kullanılan Scikit-learn, kullanıcı dostu bir arayüze sahiptir. Ön plana çıkan özellikleri arasında:

  • Denetimli ve Denetimsiz Öğrenme Algoritmaları: Klasik makine öğrenimi yöntemlerini kolaylıkla uygulamanıza imkan tanır.
  • Model Değerlendirme Araçları: Doğruluk oranlarınızı ölçen çeşitli metrikleri içerir.
  • Özellik Seçimi: Verinizin en önemli özelliklerini tespit etme konusunda yardımcı olur.

Scikit-learn, veri analizinizi makine öğrenimi ile birleştirmek isteyenler için mükemmel bir seçenektir.

Veri analizi gerçekleştirebilmek için yukarıda belirtilen kütüphaneler, temel bir başlangıç noktası sunar. Her biri farklı bir amaca hizmet eder ve kendi alanlarında uzmanlaşmışlardır. Python’un güçlü kütüphane ekosistemi sayesinde, veri analizi süreçlerinizi daha etkili hale getirmek için gereken tüm araçlara erişim sağlayabilirsiniz. Bu kütüphaneleri öğrenerek, hem temel veri analizini yapabilir hem de ileri düzey projelerde yer alabilirsiniz.