POTOKI DANYCH LEKSYKON KIESZONKOWY

44.90

Na stanie

Spis treści

Wprowadzenie

Rozdział 1. Wprowadzenie do potoków danych

Czym jest potok danych?
Kto tworzy potok danych?
Podstawy pracy z SQL i hurtowniami danych
Python i/lub Java
Przetwarzanie rozproszone
Podstawowa administracja systemem
Nastawienie bazujące na celach
Dlaczego w ogóle są tworzone potoki danych?
Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych

Różnorodność źródeł danych
Własność źródła danych
Interfejs pobierania danych i ich struktura
Wolumen danych
Czystość danych i ich weryfikacja
Opóźnienie i przepustowość systemu źródłowego
Jezioro danych i hurtownia danych w chmurze
Narzędzia pobierania danych
Przekształcanie danych i narzędzia modelowania
Platformy narzędzi koordynacji sposobu pracy
Skierowany graf acykliczny
Dostosowanie infrastruktury danych do własnych potrzeb

Rozdział 3. Najczęściej spotykane wzorce potoków danych

ETL i ELT
Pojawienie się ELT po ETL
Podwzorzec EtLT
ELT w analizie danych
ELT dla naukowca
ELT dla produktów danych i uczenia maszynowego
Etapy potoku danych dla uczenia maszynowego
Wykorzystanie informacji zwrotnych w potoku
Więcej zasobów dotyczących potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych – wyodrębnianie

Przygotowanie środowiska Pythona
Przygotowanie plikowego magazynu danych w chmurze
Wyodrębnianie danych z bazy danych MySQL
Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
Binarny dziennik zdarzeń replikacji danych MySQL
Wyodrębnianie danych z bazy danych PostgreSQL
Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
Replikacja danych za pomocą dziennika zdarzeń WAL
Wyodrębnianie danych z API REST
Wyodrębnianie danych z bazy danych MongoDB
Strumieniowane pobieranie danych za pomocą Kafki i Debezium

Rozdział 5. Pobieranie danych – wczytywanie

Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
Wczytywanie danych do hurtowni danych Redshift
Wczytywanie przyrostowe a pełne
Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
Wczytywanie danych do hurtowni danych Snowflake
Używanie plikowego magazynu danych jako jeziora danych
Frameworki typu open source
Alternatywy komercyjne

Rozdział 6. Przekształcanie danych

Przekształcenia pozbawione kontekstu
Usunięcie powtarzających się rekordów w tabeli
Przetwarzanie adresów URL
Kiedy powinno odbywać się przekształcanie – podczas pobierania danych czy już po?
Podstawy modelowania danych
Najważniejsze pojęcia związane z modelowaniem danych
Modelowanie w pełni odświeżonych danych
Powolna zmiana wymiarów w celu pełnego odświeżenia danych
Modelowanie przyrostowo pobieranych danych
Modelowanie danych, które są tylko dołączane
Modelowanie zmiany przechwytywanych danych

Rozdział 7. Narzędzia instrumentacji potoków danych

Skierowany graf acykliczny
Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
Instalacja i konfiguracja
Baza danych Apache Airflow
Serwer WWW i interfejs użytkownika
Harmonogram
Wykonawca
Operatory
Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
Prosty skierowany graf acykliczny
Skierowany graf acykliczny potoku danych ELT
Dodatkowe zadania potoku danych
Komunikaty i powiadomienia
Weryfikacja danych
Zaawansowane konfiguracje koordynacji
Połączone a niepołączone zadania potoku danych
Kiedy podzielić skierowany graf acykliczny?
Koordynacja wielu grafów za pomocą operatora Sensor
Zarządzane opcje Apache Airflow
Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku

Weryfikuj wcześnie i często
Jakość danych w systemie źródłowym
Niebezpieczeństwa związane z pobieraniem danych
Umożliwienie analitykowi weryfikacji danych
Prosty framework weryfikacji
Kod frameworka weryfikacji
Struktura testu weryfikacyjnego
Wykonywanie testu weryfikacyjnego
Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
Rozbudowa frameworka
Przykłady testów weryfikacyjnych
Powielone rekordy po operacji pobierania danych
Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
Fluktuacje wartości wskaźników
Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych

Obsługa zmian w systemach źródłowych
Wprowadzenie abstrakcji
Obsługa kontraktów danych
Ograniczenia schematu podczas odczytu
Skalowanie złożoności
Standaryzacja pobierania danych
Wielokrotne używanie logiki modelu danych
Zapewnienie spójności zależności

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych

Kluczowe wskaźniki potoku
Przygotowanie hurtowni danych
Schemat infrastruktury danych
Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
Przekształcanie danych dotyczących wydajności działania
Wskaźnik sukcesu skierowanego grafu acyklicznego
Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
Liczba testów weryfikacyjnych i współczynnik sukcesu
Koordynacja wydajności działania potoku
Skierowany graf acykliczny dotyczący wydajności działania
Przejrzystość wydajności działania

Skorowidz

Autor

ISBN

978-83-8322-338-4

Liczba stron

Rok wydania

Wydawca

Opinie

Na razie nie ma opinii o produkcie.

Napisz pierwszą opinię o „POTOKI DANYCH LEKSYKON KIESZONKOWY”

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *