Spis treści
Wprowadzenie
Rozdział 1. Wprowadzenie do potoków danych
Czym jest potok danych?
Kto tworzy potok danych?
Podstawy pracy z SQL i hurtowniami danych
Python i/lub Java
Przetwarzanie rozproszone
Podstawowa administracja systemem
Nastawienie bazujące na celach
Dlaczego w ogóle są tworzone potoki danych?
Jak jest tworzony potok danych?
Rozdział 2. Nowoczesna infrastruktura danych
Różnorodność źródeł danych
Własność źródła danych
Interfejs pobierania danych i ich struktura
Wolumen danych
Czystość danych i ich weryfikacja
Opóźnienie i przepustowość systemu źródłowego
Jezioro danych i hurtownia danych w chmurze
Narzędzia pobierania danych
Przekształcanie danych i narzędzia modelowania
Platformy narzędzi koordynacji sposobu pracy
Skierowany graf acykliczny
Dostosowanie infrastruktury danych do własnych potrzeb
Rozdział 3. Najczęściej spotykane wzorce potoków danych
ETL i ELT
Pojawienie się ELT po ETL
Podwzorzec EtLT
ELT w analizie danych
ELT dla naukowca
ELT dla produktów danych i uczenia maszynowego
Etapy potoku danych dla uczenia maszynowego
Wykorzystanie informacji zwrotnych w potoku
Więcej zasobów dotyczących potoków danych dla uczenia maszynowego
Rozdział 4. Pobieranie danych – wyodrębnianie
Przygotowanie środowiska Pythona
Przygotowanie plikowego magazynu danych w chmurze
Wyodrębnianie danych z bazy danych MySQL
Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
Binarny dziennik zdarzeń replikacji danych MySQL
Wyodrębnianie danych z bazy danych PostgreSQL
Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
Replikacja danych za pomocą dziennika zdarzeń WAL
Wyodrębnianie danych z API REST
Wyodrębnianie danych z bazy danych MongoDB
Strumieniowane pobieranie danych za pomocą Kafki i Debezium
Rozdział 5. Pobieranie danych – wczytywanie
Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
Wczytywanie danych do hurtowni danych Redshift
Wczytywanie przyrostowe a pełne
Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
Wczytywanie danych do hurtowni danych Snowflake
Używanie plikowego magazynu danych jako jeziora danych
Frameworki typu open source
Alternatywy komercyjne
Rozdział 6. Przekształcanie danych
Przekształcenia pozbawione kontekstu
Usunięcie powtarzających się rekordów w tabeli
Przetwarzanie adresów URL
Kiedy powinno odbywać się przekształcanie – podczas pobierania danych czy już po?
Podstawy modelowania danych
Najważniejsze pojęcia związane z modelowaniem danych
Modelowanie w pełni odświeżonych danych
Powolna zmiana wymiarów w celu pełnego odświeżenia danych
Modelowanie przyrostowo pobieranych danych
Modelowanie danych, które są tylko dołączane
Modelowanie zmiany przechwytywanych danych
Rozdział 7. Narzędzia instrumentacji potoków danych
Skierowany graf acykliczny
Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
Instalacja i konfiguracja
Baza danych Apache Airflow
Serwer WWW i interfejs użytkownika
Harmonogram
Wykonawca
Operatory
Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
Prosty skierowany graf acykliczny
Skierowany graf acykliczny potoku danych ELT
Dodatkowe zadania potoku danych
Komunikaty i powiadomienia
Weryfikacja danych
Zaawansowane konfiguracje koordynacji
Połączone a niepołączone zadania potoku danych
Kiedy podzielić skierowany graf acykliczny?
Koordynacja wielu grafów za pomocą operatora Sensor
Zarządzane opcje Apache Airflow
Inne frameworki koordynacji
Rozdział 8. Weryfikacja danych w potoku
Weryfikuj wcześnie i często
Jakość danych w systemie źródłowym
Niebezpieczeństwa związane z pobieraniem danych
Umożliwienie analitykowi weryfikacji danych
Prosty framework weryfikacji
Kod frameworka weryfikacji
Struktura testu weryfikacyjnego
Wykonywanie testu weryfikacyjnego
Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
Rozbudowa frameworka
Przykłady testów weryfikacyjnych
Powielone rekordy po operacji pobierania danych
Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
Fluktuacje wartości wskaźników
Komercyjne i niekomercyjne frameworki do weryfikacji danych
Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych
Obsługa zmian w systemach źródłowych
Wprowadzenie abstrakcji
Obsługa kontraktów danych
Ograniczenia schematu podczas odczytu
Skalowanie złożoności
Standaryzacja pobierania danych
Wielokrotne używanie logiki modelu danych
Zapewnienie spójności zależności
Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych
Kluczowe wskaźniki potoku
Przygotowanie hurtowni danych
Schemat infrastruktury danych
Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
Przekształcanie danych dotyczących wydajności działania
Wskaźnik sukcesu skierowanego grafu acyklicznego
Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
Liczba testów weryfikacyjnych i współczynnik sukcesu
Koordynacja wydajności działania potoku
Skierowany graf acykliczny dotyczący wydajności działania
Przejrzystość wydajności działania
Skorowidz
Opinie
Na razie nie ma opinii o produkcie.