Promocja!

JAK ANALIZOWAĆ DANE Z BIBLIOTEKĄ PANDAS

Pierwotna cena wynosiła: 109.00zł.Aktualna cena wynosi: 98.10zł.

Na stanie

 

Słowo wstępne do wydania drugiego

Słowo wstępne do wydania pierwszego

Przedmowa

Podziękowania

O autorze

Zmiany w wydaniu drugim

Część I. Wprowadzenie

Rozdział 1. Typ danych DataFrame biblioteki Pandas – podstawy
1.1. Wprowadzenie
Cele rozdziału
1.2. Ładowanie pierwszego zbioru danych
1.3. Sprawdzanie kolumn, wierszy i komórek
1.3.1. Wybieranie i określanie podzbioru kolumn na podstawie nazwy
1.3.2. Określanie podzbioru wierszy
1.3.3. Określanie podzbioru wierszy za pomocą numeru wiersza: atrybut .iloc[]
1.3.4. Użycie kombinacji
1.3.5. Określanie podzbioru wierszy i kolumn
1.4. Obliczenia grupowane i agregowane
1.4.1. Średnie grupowane
1.4.2. Liczebności grupowane
1.5. Podstawowy wykres
Podsumowanie
Rozdział 2. Struktury danych biblioteki Pandas – podstawy
Cele rozdziału
2.1. Tworzenie własnych danych
2.1.1. Tworzenie obiektu Series
2.1.2. Tworzenie obiektu DataFrame
2.2. Obiekty Series
2.2.1. Obiekt Series przypomina typ ndarray
2.2.2. Określanie podzbioru wartości boolowskich: obiekt Series
2.2.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
2.3. Obiekt DataFrame
2.3.1. Części obiektu DataFrame
2.3.2. Określanie podzbioru wartości boolowskich: obiekty DataFrame
2.3.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
2.4. Wprowadzanie zmian w obiektach Series i DataFrame
2.4.1. Dodawanie dodatkowych kolumn
2.4.2. Bezpośrednie modyfikowanie kolumny
2.4.3. Modyfikowanie kolumn za pomocą metody .assign()
2.4.4. Usuwanie wartości
2.5. Eksportowanie i importowanie danych
2.5.1. „Peklowanie”
2.5.2. Format danych CSV
2.5.3. Excel
2.5.4. Format Feather
2.5.5. Projekt Arrow
2.5.6. Słownik
2.5.7. Format JSON
2.5.8. Inne typy danych wyjściowych
Podsumowanie
Rozdział 3. Tworzenie wykresów – podstawy
Cele rozdziału
3.1. Dlaczego warto wizualizować dane?
3.2. Podstawy obsługi biblioteki matplotlib
3.2.1. Obiekty rysunków i podwykresy z osiami
3.2.2. Anatomia rysunku
3.3. Tworzenie graficznych wizualizacji danych statystycznych za pomocą biblioteki matplotlib
3.3.1. Jednozmienność (pojedyncza zmienna)
3.3.2. Dwuzmienność (dwie zmienne)
3.3.3. Dane wielozmienne
3.4. Biblioteka seaborn
3.4.1. Jednozmienność
3.4.2. Dane dwuzmienne
3.4.3. Dane wielozmienne
3.4.4. Aspekty
3.4.5. Style i kompozycje biblioteki seaborn
3.4.6. Jak korzystać z dokumentacji biblioteki seaborn?
3.4.7. Interfejs biblioteki seaborn następnej generacji
3.5. Metoda tworzenia wykresów za pomocą biblioteki Pandas
3.5.1. Histogram
3.5.2. Wykres gęstości
3.5.3. Wykres punktowy
3.5.4. Wykres przedziałów sześciokątnych (hexbin)
3.5.5. Wykres pudełkowy
Podsumowanie
Rozdział 4. Dane uporządkowane
Cele rozdziału
Uwaga dotycząca niniejszego rozdziału
4.1. Kolumny zawierają wartości, a nie zmienne
4.1.1. Utrwalenie jednej kolumny
4.1.2. Utrwalenie wielu kolumn
4.2. Kolumny zawierają wiele zmiennych
4.2.1. Osobne dzielenie i dodawanie kolumn
4.2.2. Dzielenie i łączenie kolumn w jednym kroku
4.3. Zmienne znajdują się w wierszach i kolumnach
Podsumowanie
Rozdział 5. Zastosowanie funkcji
Cele rozdziału
Uwaga dotycząca niniejszego rozdziału
5.1. Elementarz funkcji
5.2. Zastosowanie funkcji (podstawy)
5.2.1. Zastosowanie funkcji względem obiektu Series
5.2.2. Zastosowanie funkcji względem obiektu DataFrame
5.3. Funkcje wektoryzowane
5.3.1. Wektoryzacja za pomocą biblioteki NumPy
5.3.2. Wektoryzacja za pomocą biblioteki Numba
5.4. Funkcje lambda (funkcje anonimowe)
Podsumowanie

Część II. Przetwarzanie danych

Rozdział 6. Łączenie danych
Cele rozdziału
6.1. Łączenie zbiorów danych
6.2. Konkatenacja
6.2.1. Części przeglądowe obiektu DataFrame
6.2.2. Dodawanie wierszy
6.2.3. Dodawanie kolumn
6.2.4. Konkatenacja z różnymi indeksami
6.3. Jednostki obserwacyjne w obrębie wielu tabel
6.3.1. Ładowanie wielu plików za pomocą pętli
6.3.2. Ładowanie wielu plików przy użyciu listy składanej
6.4. Scalanie wielu zbiorów danych
6.4.1. Scalanie typu „jedna z jedną”
6.4.2. Scalanie typu „wiele z jedną”
6.4.3. Scalanie typu „wiele z wieloma”
6.4.4. Sprawdzanie wyników pracy za pomocą asercji
Podsumowanie
Rozdział 7. Normalizacja danych
Cele rozdziału
7.1. Wiele jednostek obserwacyjnych w tabeli (normalizacja)
Podsumowanie
Rozdział 8. Operacje grupowania: dzielenie, stosowanie i łączenie
Cele rozdziału
8.1. Agregacja
8.1.1. Podstawowa agregacja danych grupowanych z jedną zmienną
8.1.2. Wbudowane metody agregacji
8.1.3. Funkcje agregacji
8.1.4. Użycie wielu funkcji jednocześnie
8.1.5. Zastosowanie słownika w metodzie .agg() lub .aggregate()
8.2. Transformacja
8.2.1. Przykład wyniku standardowego z
8.2.2. Przykład z brakującymi wartościami
8.3. Filtrowanie
8.4. Obiekt pandas.core.groupby.DataFrameGroupBy
8.4.1. Grupy
8.4.2. Obliczenia w ramach grupowania obejmujące wiele zmiennych
8.4.3. Wybieranie grupy
8.4.4. Iteracja w obrębie grup
8.4.5. Wiele grup
8.4.6. „Spłaszczanie” wyników (.reset_index())
8.5. Zastosowanie obiektu MultiIndex
Podsumowanie

Część III. Typy danych

Rozdział 9. Brakujące dane
Cele rozdziału
9.1. Czym jest wartość NaN?
9.2. Skąd biorą się brakujące wartości?
9.2.1. Ładowanie danych
9.2.2. Scalone dane
9.2.3. Wartości wprowadzane przez użytkownika
9.2.4. Ponowne indeksowanie
9.3. Zajmowanie się brakującymi danymi
9.3.1. Znajdowanie brakujących danych i określanie ich ilości
9.3.2. Oczyszczanie danych z brakującymi wartościami
9.3.3. Obliczenia uwzględniające brakujące dane
9.4. Brakująca wartość NA wbudowana w bibliotece Pandas
Podsumowanie
Rozdział 10. Typy danych
Cele rozdziału
10.1. Typy danych
10.2. Przekształcanie typów
10.2.1. Konwersja do postaci obiektów łańcuchów
10.2.2. Przekształcanie w wartości liczbowe
10.3. Dane kategorialne
10.3.1. Przekształcanie w kategorię
10.3.2. Przetwarzanie danych kategorialnych
Podsumowanie
Rozdział 11. Łańcuchy i dane tekstowe
Wprowadzenie
Cele rozdziału
11.1. Łańcuchy
11.1.1. Określanie podzbioru i dzielenie łańcuchów
11.1.2. Uzyskanie ostatniego znaku łańcucha
11.2. Metody łańcuchowe
11.3. Dodatkowe metody łańcuchowe
11.3.1. Metoda join
11.3.2. Metoda splitlines
11.4. Formatowanie łańcuchów (f-łańcuchy)
11.4.1. Formatowanie liczb
11.5. Wyrażenia regularne
11.5.1. Dopasowanie wzorca
11.5.2. Pamiętaj, jakich używasz wzorców wyrażeń regularnych
11.5.3. Znajdowanie wzorca
11.5.4. Zastępowanie wzorca
11.5.5. Kompilowanie wzorca
11.6. Biblioteka regex
Podsumowanie
Rozdział 12. Daty i godziny
Cele rozdziału
12.1. Obiekt datetime języka Python
12.2. Przekształcanie do postaci ramki danych
12.3. Ładowanie danych zawierających daty
12.4. Wyodrębnianie składników daty
12.5. Obliczenia obejmujące daty i obiekty timedelta
12.6. Metody obiektu datetime
12.7. Uzyskiwanie danych notowań giełdowych
12.8. Określanie podzbioru danych na podstawie dat
12.8.1. Obiekt DatetimeIndex
12.8.2. Obiekt TimedeltaIndex
12.9. Zakresy dat
12.9.1. Częstotliwości
12.9.2. Przesunięcia
12.10. Wartości przesuwające
12.11. Ponowne próbkowanie
12.12. Strefy czasowe
12.13. Biblioteka Arrow do lepszej obsługi dat i godzin
Podsumowanie

Część IV. Modelowanie danych

Rozdział 13. Regresja liniowa (wynikowa zmienna ciągła)
13.1. Prosta regresja liniowa
13.1.1. Użycie biblioteki statsmodels
13.1.2. Zastosowanie biblioteki scikit-learn (sklearn)
13.2. Regresja wielokrotna
13.2.1. Użycie biblioteki statsmodels
13.2.2. Zastosowanie biblioteki scikit-learn (sklearn)
13.3. Modele ze zmiennymi kategorialnymi
13.3.1. Zmienne kategorialne w bibliotece statsmodels
13.3.2. Zmienne kategorialne w bibliotece scikit-learn (sklearn)
13.4. Kodowanie One-Hot w bibliotece scikit-learn z wykorzystaniem potoków transformera
Podsumowanie
Rozdział 14. Uogólnione modele liniowe
Coś o tym rozdziale
14.1. Regresja logistyczna (binarna zmienna wyjściowa)
14.1.1. Użycie biblioteki statsmodels
14.1.2. Zastosowanie biblioteki sklearn
14.1.3. Zachowaj ostrożność w przypadku domyślnych wartości biblioteki scikit-learn (sklearn)
14.2. Regresja Poissona (ilościowa zmienna wynikowa)
14.2.1. Użycie biblioteki statsmodels
14.2.2. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji
14.3. Bardziej uogólnione modele liniowe
Podsumowanie
Rozdział 15. Analiza przeżycia
15.1. Dane analizy przeżycia
15.2. Krzywe Kaplana-Meiera
15.3. Model proporcjonalnego hazardu Coxa
15.3.1. Testowanie założeń modelu Coxa
Podsumowanie
Rozdział 16. Diagnostyka modeli
16.1. Residua
16.1.1. Wykresy kwantylowe K-K
16.2. Porównanie wielu modeli
16.2.1. Korzystanie z modeli liniowych
16.2.2. Zastosowanie uogólnionych modeli liniowych
16.3. Walidacja krzyżowa k-krotna
Podsumowanie
Rozdział 17. Regularyzacja
17.1. Dlaczego regularyzacja?
17.2. Regresja LASSO
17.3. Regresja grzbietowa
17.4. Sieć elastyczna
17.5. Walidacja krzyżowa
Podsumowanie
Rozdział 18. Klasteryzacja
18.1. k-średnie
18.1.1. Ograniczanie liczby wymiarów za pomocą analizy PCA
18.2. Klastrowanie hierarchiczne
18.2.1. Klastrowanie kompletne
18.2.2. Klastrowanie pojedyncze
18.2.3. Klastrowanie ze średnią
18.2.4. Klastrowanie z centroidem
18.2.5. Klastrowanie metodą Warda
18.2.6. Ręczne ustawianie progu
Podsumowanie

Część V. Podsumowanie

Rozdział 19. Świat poza obrębem biblioteki Pandas
19.1. Stos do obliczeń (naukowych)
19.2. Wydajność
19.2.1. Pomiar czasu wykonywania kodu
19.2.2. Profilowanie kodu
19.2.3. Moduł concurrent.futures
19.3. Dask
19.4. Siuba
19.5. Ibis
19.6. Polars
19.7. PyJanitor
19.8. Pandera
19.9. Uczenie maszynowe
19.10. Publikowanie
19.11. Panele kontrolne
Podsumowanie
Rozdział 20. Działanie w pojedynkę jest niebezpieczne!
20.1. Lokalne spotkania
20.2. Konferencje
20.3. The Carpentries
20.4. Podcasty
20.5. Inne zasoby
Podsumowanie

Dodatki

Dodatek A. Mapy pojęć
Dodatek B. Instalacja i konfiguracja
B.1. Instalacja języka Python
B.1.1. Anaconda
B.1.2. Miniconda
B.1.3. Odinstalowywanie dystrybucji Anaconda lub Miniconda
B.1.4. pyenv
B.2. Instalowanie pakietów języka Python
B.3. Pobieranie zbiorów danych używanych w książce
Dodatek C. Wiersz poleceń
C.1. Instalacja
C.1.1. System Windows
C.1.2. System Mac
C.1.3. System Linux
C.2. Podstawy
Dodatek D. Szablony projektowe
Dodatek E. Zastosowanie języka Python
E.1. Wiersz poleceń i edytor tekstu
E.2. Python i IPython
E.3. Jupyter
E.4. Zintegrowane środowiska programistyczne IDE
Dodatek F. Katalogi robocze
Dodatek G. Środowiska
G.1. Środowiska systemu conda
G.2. Pyenv + Pipenv
Dodatek H. Instalacja pakietów
H.1. Aktualizowanie pakietów
Dodatek I. Importowanie bibliotek
Dodatek J. Styl kodu
J.1. Znaki podziału wiersza w kodzie
Dodatek K. Kontenery: listy, krotki i słowniki
K.1. Listy
K.2. Krotki
K.3. Słowniki
Dodatek L. Określanie wartości za pomocą składni wycinków
Dodatek M. Pętle
Dodatek N. Listy składane
Dodatek O. Funkcje
O.1. Parametry domyślne
O.2. Parametry arbitralne
O.2.1. Wyrażenie *args
O.2.2. Wyrażenie **kwargs
Dodatek P. Zakresy i generatory
Dodatek Q. Przypisanie wielokrotne
Dodatek R. Typ ndarray biblioteki NumPy
Dodatek S. Klasy
Dodatek T. Komunikat SettingWithCopyWarning
T.1. Modyfikowanie podzbioru danych
T.2. Zastępowanie wartości
T.3. Dodatkowe zasoby informacji
Dodatek U. Tworzenie łańcuchów metod
Dodatek V. Czas wykonywania kodu
Dodatek W. Formatowanie łańcuchów
W.1. Formatowanie w stylu języka C
W.2. Formatowanie łańcuchów: metoda .format()
W.3. Formatowanie liczb
Dodatek X. Instrukcje warunkowe (if-elif-else)
Dodatek Y. Przykład regresji logistycznej ze zbiorem danych ACS dla Nowego Jorku
Y.0.1. Użycie biblioteki sklearn
Dodatek Z. Replikowanie wyników za pomocą języka R
Z.1. Regresja liniowa
Z.2. Regresja logistyczna
Z.3. Regresja Poissona
Z.3.1. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji

Skorowidz

Autor

ISBN

978-83-289-0151-3

Liczba stron

Rok wydania

Opinie

Na razie nie ma opinii o produkcie.

Napisz pierwszą opinię o „JAK ANALIZOWAĆ DANE Z BIBLIOTEKĄ PANDAS”

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *