MISTRZ ANALIZY DANYCH OD DANYCH DO WIEDZY W.II

89.11

Na stanie

Mistrz analizy danych. Od danych do wiedzy. Wydanie II

Wstęp

1. Wszystko, co chciałeś wiedzieć o arkuszu kalkulacyjnym, ale bałeś się o to zapytać

  • Przykładowe proste dane
  • Szybkie statystyki opisowe
  • Tabele Excela
    • Filtrowanie i sortowanie
    • Formatowanie tabeli
    • Odwołania strukturalne
    • Dodawanie kolumn do tabeli
  • Formuły przeznaczone do wyszukiwania
    • WYSZUKAJ.POZIOMO
    • INDEKS/PODAJ.POZYCJĘ
    • X.WYSZUKAJ
  • Tabele przestawne
  • Korzystanie z formuł tablicowych
  • Rozwiązywanie problemów za pomocą narzędzia Solver

2. Ustaw i zapomnij! Wprowadzenie do Power Query

  • Czym jest Power Query?
  • Przykładowe dane
  • Rozpoczęcie pracy z Power Query
  • Filtrowanie wierszy
  • Usuwanie kolumn
  • Znajdź i zastąp
  • Zamknij i załaduj. do tabeli

3. Naiwny klasyfikator bayesowski i niezwykła lekkość bycia idiotą

  • Najszybsze na świecie wprowadzenie do rachunku prawdopodobieństwa
    • Obliczanie prawdopodobieństwa warunkowego
    • Prawdopodobieństwo części wspólnej, reguła łańcuchowa i niezależność
    • A co, jeżeli sytuacje są zależne od siebie?
    • Twierdzenie Bayesa
  • Oddzielanie sygnału od szumu
  • Tworzenie modelu sztucznej inteligencji za pomocą twierdzenia Bayesa
    • Zwykle zakłada się, że wysokopoziomowe prawdopodobieństwa klas są sobie równe
    • Kilka innych drobnostek
  • Czas rozpocząć zabawę z Excelem
    • Porządkowanie danych za pomocą Power Query
    • Dzielenie na znakach spacji: każde słowo musi dostać to, co mu się należy
    • Zliczanie leksemów i obliczanie prawdopodobieństw
    • Zbudowaliśmy model. Skorzystajmy z niego!

4. Analiza skupień. Część I – zastosowanie algorytmu centroidów do segmentowania bazy klientów

  • Zabawy taneczne na obozie letnim
  • Prawdziwy problem: implementacja algorytmu centroidów w e-mail marketingu
    • Początkowy zbiór danych
    • Określanie tego, co chcemy mierzyć
    • Zacznij od czterech grup
    • Odległość euklidesowa – pomiar odległości w linii prostej
    • Określanie położenia środków klastrów
    • Analiza uzyskanych wyników
    • Ustalanie najlepszej oferty dla danego klastra
    • Sylwetka podziału – dobry sposób na określenie optymalnej liczby klastrów
    • A może potrzebujesz pięciu klastrów?
    • Dzielenie klientów na pięć klastrów za pomocą narzędzia Solver
    • Ustalanie najlepszych ofert dla wszystkich pięciu klastrów
    • Określanie sylwetki podziału na pięć klastrów
  • Podział na grupy za pomocą algorytmu K-medioidów i asymetryczny pomiar odległości
    • Podział na grupy za pomocą metody K-medioidów
    • Stosowanie lepszego sposobu pomiaru odległości
    • Implementacja za pomocą Excela
    • Najlepsze oferty przy podziale na pięć klastrów za pomocą median

5. Analiza skupień. Część II – grafy i analiza sieci

  • Czym jest graf sieci?
  • Wizualizacja prostego grafu
    • Wyjście poza dodatek GiGraph i listy sąsiedztwa
  • Tworzenie grafu na podstawie danych sprzedaży wina
    • Tworzenie macierzy podobieństwa kosinusowego
    • Generowanie grafu r-sąsiedztwa
  • Wprowadzenie do Gephi
    • Tworzenie statycznej macierzy sąsiedztwa
    • Macierz r-sąsiedztwa w Gephi
    • Stopień rozgałęzienia
    • Edycja danych grafu
  • Jaka jest wartość krawędzi? Nagradzanie i karanie krawędzi – modularność grafu
    • Czym jest punkt, a czym kara?
    • Tworzenie arkusza punktacji
  • Czas dokonać podziału na grupy
    • Podział 1.
    • Podział 2. – kontratak
    • Podział 3. – zemsta
    • Grupy – kodowanie i analiza
  • Tam i z powrotem – czas na Gephi

6. Regresja jako przodek nadzorowanego uczenia maszynowego i sztucznej inteligencji

  • Przewidywanie ciąży klientów na podstawie regresji liniowej
    • Zbiór cech
    • Tworzenie treningowego zbioru danych
    • Tworzenie zmiennych fikcyjnych
    • Pobawmy się regresją liniową
    • Parametry regresji liniowej: współczynnik determinacji, test F i test t
    • Przewidywanie ciąży na nowym zbiorze danych i sprawdzanie jakości modelu
  • Przewidywanie ciąży klientów za pomocą regresji logistycznej
    • Najpierw musisz określić funkcję wiążącą
    • Tworzenie funkcji logistycznej i ponowna optymalizacja
    • Praca nad prawdziwą regresją logistyczną

7. Modele zespołowe – dużo nie najlepszej pizzy

  • Korzystanie z danych z rozdziału 6.
  • Agregacja – losuj, trenuj, powtórz
    • Pieniek decyzyjny to kolejne określenie słabego klasyfikatora
    • To wcale nie wydaje się takie słabe!
    • Więcej mocy!
    • Czas rozpocząć proces trenowania
    • Ocena działania modelu zespolonego
  • Wzmacnianie – jeżeli uzyskałeś niesatysfakcjonujące wyniki, to wzmocnij swój model i uruchom go jeszcze raz
    • Trenowanie modelu – każda cecha ma swoje pięć minut
    • Wydajność modelu wzmacnianych reguł decyzyjnych

8. Prognozowanie – oddychaj spokojnie, i tak nie wygrasz

  • Hossa na rynku sprzedaży mieczy
  • Szeregi czasowe
  • Zacznij od prostego wygładzania wykładniczego
    • Przygotowanie arkusza prognozy prostego wygładzania wykładniczego
  • Być może dane zawierają trend
  • Podwójne wygładzanie wykładnicze (metoda Holta)
    • Metoda Holta w arkuszu kalkulacyjnym
    • To wszystko? Analiza autokorelacji
  • Wielokrotne wygładzanie wykładnicze – model Holta-Wintersa
    • Określanie początkowych wartości poziomu, trendu i sezonowości
    • Tworzenie prognozy
    • Czas na optymalizację
    • Interwały prognozy
    • Tworzenie wykresu warstwowego wachlarza wartości
  • Arkusze prognozy w Excelu

9. Modelowanie optymalizacyjne – świeżo wyciśnięty sok nie zamiesza się sam

  • Ale czy to w ogóle jest analiza danych?
  • Zacznijmy od prostego kompromisu
    • Przedstawienie problemu w formie wielokomórki
    • Rozwiązywanie problemu poprzez przesuwanie poziomicy
    • Metoda simpleks – kręcenie się wokół rogów
    • Praca w Excelu
  • Szklanka świeżego soku pomarańczowego prosto z drzewa. z przystankiem na modelowanie
    • Zacznijmy od specyfikacji soków
    • Stałość produktu wyjściowego
    • Wprowadzanie danych do Excela
    • Określanie problemu w dodatku Solver
    • Obniżanie standardów
    • Usuwanie cuchnącego problemu – minimalizacja maksymalnych odchyleń
    • Warunki i ograniczenie „wielkiego M”
    • Mnożenie zmiennych – skorzystajmy ze 110% mocy Excela
  • Modelowanie ryzyka
    • Dane pochodzące z rozkładu normalnego

10. Wykrywanie obserwacji odstających

  • Element odstający to też człowiek
  • Fascynująca sprawa Hadlumów
    • Metoda Tukeya
    • Implementacja metody Tukeya w arkuszu kalkulacyjnym
    • Ograniczenia tej prostej techniki
  • Nie tragiczny, ale słaby we wszystkim
    • Przygotowywanie danych do utworzenia wykresu
    • Tworzenie grafu
    • Określanie k najbliższych sąsiadów
    • Pierwsza metoda wykrywania elementów odstających grafu – skorzystaj ze stopnia wchodzącego
    • Druga metoda wykrywania elementów odstających grafu – zgłębianie niuansów za pomocą k-odległości
    • Trzecia metoda wykrywania elementów odstających grafu – lokalny miernik stopnia oddalenia obserwacji

11. Przejście z arkusza kalkulacyjnego do języka R

  • Przygotowanie środowiska i początek pracy w języku R
    • Szybkie szkolenie z pisania skryptów w języku R
    • Działania matematyczne na wektorach i faktory
    • Najlepszy typ danych – dataframe
    • Pomoc dla języka R
    • Wyjście poza podstawowe możliwości R
  • Prawdziwa analiza danych
    • Wczytywanie danych do R
    • Sferyczny algorytm k-średnich wywołany za pomocą zaledwie kilku linii kodu
    • Budowanie modeli sztucznej inteligencji na podstawie danych zakupów (wykrywanie ciąży)
    • Prognozowanie w R
    • Wykrywanie elementów odstających

12. Wnioski

  • Gdzie ja jestem? Co się stało?
  • Zanim odłożysz tę książkę
    • Poznaj problem
    • Potrzebujemy więcej tłumaczy
    • Uważaj na trójgłowe monstrum: narzędzia, wydajność i perfekcjonizm
    • Nie jesteś najważniejszą osobą w firmie
  • Bądź kreatywny
Autor

ISBN

978-83-289-1180-2

Opinie

Na razie nie ma opinii o produkcie.

Napisz pierwszą opinię o „MISTRZ ANALIZY DANYCH OD DANYCH DO WIEDZY W.II”

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *