Spark Optimization

Yavaş Apache Spark işlerini hızlı ve uygun maliyetli hale getiren üretim rehberi.

Asıl darboğazlara saldırır: shuffle, veri çarpıklığı, bölüm boyutlandırma ve bellek baskısı: somut PySpark desenleri, broadcast ve bucket join stratejileri ve AQE etkin bir yapılandırma şablonuyla; böylece veri hatlarınız küme maliyetlerini patlatmadan ölçeklenir.

₺369 tek seferlik
Bir kit içine ekle →

Fiyatlara KDV (%20) dahildir. · Gerçek ajans işinden çıkarıldı · tek seferlik, kilit yok

  • Tür Skill
  • Kategori Veri & Analitik
  • Teslimat E-posta · anında
  • Lisans Tek seferlik
Çalışma önizlemesi
forgehouse, spark-optimization

Çalışmanın içinden · kara kutu yok

Satın almadan önce işin kendisini gör.

Yavaş bir Spark job'ında skill'in izlediği teşhis sırası, en pahalı maliyetten başlayarak şu:

  1. Spark UI'ı açar, toplam süreyi domine eden stage'i bulur; task süre histogramından skew okur. Max/ortalama partition oranı 2x'i geçiyorsa tek bir sıcak partition bütün job'ı rehin tutuyordur.
  2. Önce shuffle avlar, çünkü Spark'taki en pahalı operasyon shuffle'dır: partition sayısı sadece azalıyorsa repartition yerine coalesce, groupBy öncesi lokal ön-toplama, kesin distinct yerine approx_count_distinct.
  3. Sonra join'leri düzeltir: küçük taraf executor belleğine gerçekten sığıyorsa F.broadcast ile açıkça yayınlar, büyük-büyük join'de sort-merge'e bırakır; ciddi skew'de salting uygular (sıcak anahtara rastgele ek, karşı tarafta explode).
  4. Partition'ları 128-256MB hedefine oturtur ve AQE'yi açar; böylece partition sayısı ve skew'li join'ler plan anında donmak yerine çalışma anında ayarlanmaya devam eder.
  5. Yalnızca birden fazla action'da tekrar kullanılan DataFrame'leri cache'ler, count ile materyalize eder, iş bitince unpersist çağırır; büyük veriyi driver'a asla collect etmez, take(n) bunun için var.
  6. explain(mode="cost") çıktısı ve partition skew yeniden kontrolüyle yeni planın fazla shuffle aşamalarını gerçekten kaldırdığını doğrular, ancak ondan sonra job'a ayarlandı der.
Kullanım senaryoları · taktığında neler oluyor

Tek güç kaynağı. 6 hat dışarı.

spark-optimization · çekirdek

çekirdek aktif · 6 hat

  1. Yavaş Spark işlerini ve ETL hatlarını hızlandırma

    ✓ yavaş spark işlerini ve
  2. İş süresini domine eden veri çarpıklığını teşhis etme

    ✓ i̇ş süresini domine eden
  3. Bölümleri 128-256MB aralığına doğru boyutlandırma

    ✓ bölümleri 128-256mb aral…
  4. Broadcast, sort-merge ve bucket join arasında seçim

    ✓ broadcast, sort-merge ve
  5. Bellek dökülmesini ve OOM'u durdurmak için executor ayarı

    ✓ bellek dökülmesini ve oo…
  6. Tam tarama bulmak için EXPLAIN planlarını okuma

    ✓ tam tarama bulmak için e…
Kazanımlar · elinde kalanlar

Aldıkların sende kalır.

Zamanı ileri sar. Ne kaldığını izle.

Sonsuza dek

Sahip olmak tam olarak bu.

Kiralık yığın

yapay zekâ yazım aracı: abonelik

süresi doldu · erişim gitti

analiz paketi: abonelik

süresi doldu · erişim gitti

tasarım platformu: abonelik

süresi doldu · erişim gitti

(geriye bir şey kalmadı)

Senin ocağın

  1. En pahalı işlemi (shuffle) en aza indirerek süreyi kısaltın

    lisans: kalıcı
  2. Otomatik ölçekleme ve doğru boyutlandırmayla küme harcamasını düşürün

    lisans: kalıcı
  3. Tek bir çarpık bölümün tüm işi bekletmesini engelleyin

    lisans: kalıcı
  4. Sütunsal formatlar ve filtre itmesiyle 10-100 kat daha az veri okuyun

    lisans: kalıcı

abonelikler biter · tapular bitmez

Ne içerir · eksiksiz manifest

Kutudaki her şey.

Bir parçayı eline al. Çalışırken izle.

AQE etkin optimize SparkSession yapılandırma şablonu

parça 01 / 06 · kutuda

6 parça · tek çalışan sistem · e-postayla anında teslim

Kimler için

Bu herkes için dövülmedi.

  • Araç kiralamayı sahip olmaya tercih ediyorsan, sana göre değil.
  • Yığınını senin yerine başkası yönetsin istiyorsan, sana göre değil.
  • Tahmin etmekten memnunsan, sana göre değil.
Hâlâ burada mısın? Güzel.

Yavaş işlerin hızlı çalışmasına, büyük veri kümelerine ölçeklenmesine ve küme bütçesinde kalmasına ihtiyaç duyan, Spark hatları işleten veri mühendisleri için.

o zaman bu senin için dövüldü.

Hangi AI ile çalışır

Tasarımı gereği evrensel: her yapay zekada çalışır. Açık Agent Skills + MCP biçiminde gelir (Claude’da yerleşik); ChatGPT, Gemini, Cursor ve Copilot aynı dosyaları kendine uyarlar.

  • Claude Yerleşik biçim
  • ChatGPT Açık standartla uyarlanır
  • Gemini Açık standartla uyarlanır
  • Cursor Açık standartla uyarlanır
  • Copilot Açık standartla uyarlanır
Sorular · hâlâ havada

Aklındakini yakala.

hava temizlendi. seninle ocak arasında hiçbir şey kalmadı.
bir kıvılcım yakala: ocak cevaplar

  1. Databricks veya EMR gibi yönetilen Spark ortamlarında da geçerli mi, yoksa sadece kendi kümemi yönetiyorsam mı işe yarar?

    Desenler sağlayıcıya değil motora bağlı: shuffle azaltma, 128-256MB bölüm boyutlandırma, join stratejisi seçimi ve executor bellek dağılımı Spark'ın çalıştığı her yerde uygulanır. Örnekler PySpark, AQE etkin SparkSession yapılandırma şablonu da config ayarına izin veren her ortama taşınır.

  2. Spark'ta zaten AQE var. Üstüne bu rehbere neden ihtiyaç duyayım?

    AQE orta düzey çarpıklığı ve bölüm birleştirmeyi kendisi halleder, ama broadcast ile bucket join arasında sizin yerinize seçim yapmaz, ciddi çarpık bir anahtarı salting ile bölmez, bir aşamanın neden diske döküldüğünü açıklamaz. Rehber tam da AQE'nin karar veremediği yerleri kapsar; manuel salting ve EXPLAIN planı okuma dahil.

  3. Kümemi otomatik ayarlayıp işleri ben uğraşmadan düzeltir mi?

    Hayır. Bu bir desen seti, yapılandırma şablonu ve çarpıklık tespit parçacıkları bütünü; hattınızı kendi kendine yeniden yazan bir araç değil. Aşama metriklerinizi yine siz okur, darboğazı siz bulur ve uygun deseni siz uygularsınız.

  4. Nasıl teslim edilir?

    Satın alımdan hemen sonra e-posta ile iletilir, kuruluma hazır, anında indirilir; bekleme yok.

  5. Tek seferlik mi, abonelik mi?

    Tek seferlik alımdır; abonelik veya gizli ücret yoktur. Fiyata KDV (%20) dahildir.

  6. İade alabilir miyim?

    Dijital ürün olduğu için indirildikten sonra iade yapılmaz. Bu yüzden ne içerdiğini ve kime uygun olduğunu burada açıkça paylaşıyoruz.