Promocja!

ZAAWANSOWANA ANALIZA DANYCH W PYSPARK METODY PRZETWARZANIA INFORMACJI

Pierwotna cena wynosiła: 69.00zł.Aktualna cena wynosi: 62.10zł.

Na stanie

Spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark
    • Komponenty
    • PySpark
    • Ekosystem
  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocą struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przekształcenie struktury DataFrame
  • Złączenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakości rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartości hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie według k-średnich
  • Wykrywanie anomalii w ruchu sieciowym
    • Dane KDD Cup 1999
  • Pierwsza próba grupowania
  • Dobór wartości k
  • Wizualizacja w środowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA
    • Algorytm LDA w interfejsie PySpark
  • Pobranie danych
  • Spark NLP
    • Przygotowanie środowiska
  • Przekształcenie danych
  • Przygotowanie danych za pomocą biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych
    • Konwersja ciągów znaków na znaczniki czasu
    • Obsługa błędnych rekordów danych
  • Analiza danych geoprzestrzennych
    • Wprowadzenie do formatu GeoJSON
    • Biblioteka GeoPandas
  • Sesjonowanie w interfejsie PySpark
    • Budowanie sesji – dodatkowe sortowanie danych w systemie Spark
  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR
    • Wariancja-kowariancja
    • Symulacja historyczna
    • Symulacja Monte Carlo
  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • Określenie wag czynników
  • Losowanie prób
    • Wielowymiarowy rozkład normalny
  • Wykonanie testów
  • Wizualizacja rozkładu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocą pakietu ADAM
    • Konwersja formatów plików za pomocą poleceń pakietu ADAM
    • Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
  • Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

  • PyTorch
    • Instalacja
  • Przygotowanie danych
    • Skalowanie obrazów za pomocą PyTorch
  • Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
    • Osadzenie obrazów
    • Import osadzeń obrazów do pakietu PySpark
  • Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
    • Wyszukiwanie najbliższych sąsiadów
  • Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Śledzenie eksperymentów
  • Zarządzanie modelami uczenia maszynowego i udostępnianie ich
  • Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
  • Dalsze kroki
Autor

ISBN

978-83-8322-069-7

Liczba stron

Rok wydania

Wydawca

Opinie

Na razie nie ma opinii o produkcie.

Napisz pierwszą opinię o „ZAAWANSOWANA ANALIZA DANYCH W PYSPARK METODY PRZETWARZANIA INFORMACJI”

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *