Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli – od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV
SPIS TREŚCI
O autorze
O recenzencie
Przedmowa
Rozdział 1. Wprowadzenie do uczenia maszynowego
Początki uczenia maszynowego
Użycia i nadużycia uczenia maszynowego
Sukcesy uczenia maszynowego
Ograniczenia uczenia maszynowego
Etyka uczenia maszynowego
Jak uczą się maszyny?
Zachowywanie danych
Abstrakcja
Generalizacja
Ewaluacja
Uczenie maszynowe w praktyce
Typy danych wejściowych
Typy algorytmów uczenia maszynowego
Dopasowywanie danych wejściowych do algorytmów
Uczenie maszynowe w języku R
Instalowanie pakietów R
Wczytywanie pakietów R i usuwanie ich z pamięci
Instalowanie RStudio
Dlaczego R i dlaczego teraz?
Podsumowanie
Rozdział 2. Zarządzanie danymi
Struktury danych języka R
Wektory
Czynniki
Listy
Ramki danych
Macierze i tablice
Zarządzanie danymi w języku R
Wczytywanie, zapisywanie i usuwanie struktur danych R
Importowanie i zapisywanie zbiorów danych z plików CSV
Importowanie typowych formatów zbiorów danych do RStudio
Badanie i rozumienie danych
Badanie struktury danych
Badanie cech liczbowych
Badanie cech kategorycznych
Eksplorowanie relacji między cechami
Podsumowanie
Rozdział 3. Uczenie leniwe – klasyfikacja metodą najbliższych sąsiadów
Klasyfikacja metodą najbliższych sąsiadów
Algorytm k-NN
Dlaczego algorytm k-NN jest „leniwy”?
Przykład – diagnozowanie raka piersi a pomocą algorytmu k-NN
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 4. Uczenie probabilistyczne – naiwny klasyfikator bayesowski
Naiwny klasyfikator bayesowski
Podstawowe założenia metod bayesowskich
Naiwny klasyfikator bayesowski
Przykład – filtrowanie spamu w telefonach komórkowych za pomocą naiwnego klasyfikatora bayesowskiego
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ocena działania modelu
Etap 5. Ulepszanie modelu
Podsumowanie
Rozdział 5. Dziel i zwyciężaj – klasyfikacja z wykorzystaniem drzew decyzyjnych i reguł
Drzewa decyzyjne
Dziel i zwyciężaj
Algorytm drzewa decyzyjnego C5.0
Przykład – identyfikowanie ryzykownych pożyczek za pomocą drzew decyzyjnych C5.0
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ocena działania modelu
Etap 5. Poprawianie działania modelu
Reguły klasyfikacji
Wydzielaj i zwyciężaj
Algorytm 1R
Algorytm RIPPER
Reguły z drzew decyzyjnych
Dlaczego drzewa i reguły są „zachłanne”?
Przykład – identyfikowanie trujących grzybów za pomocą algorytmu uczącego się reguł
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 6. Prognozowanie danych liczbowych – metody regresji
Regresja
Prosta regresja liniowa
Metoda zwykłych najmniejszych kwadratów
Korelacje
Wieloraka regresja liniowa
Uogólnione modele liniowe i regresja logistyczna
Przykład – przewidywanie kosztów likwidacji szkód z wykorzystaniem regresji liniowej
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Krok dalej – przewidywanie odpływu ubezpieczonych z wykorzystaniem regresji logistycznej
Drzewa regresji i drzewa modeli
Dodawanie regresji do drzew
Przykład – ocenianie jakości win za pomocą drzew regresji i drzew modeli
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 7. Czarne skrzynki – sieci neuronowe i maszyny wektorów nośnych
Sieci neuronowe
Od neuronów biologicznych do sztucznych
Funkcje aktywacji
Topologia sieci
Trenowanie sieci neuronowej za pomocą propagacji wstecznej
Przykład – modelowanie wytrzymałości betonu za pomocą sieci ANN
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Maszyny wektorów nośnych
Klasyfikacja za pomocą hiperpłaszczyzn
Używanie funkcji jądrowych w przestrzeniach nieliniowych
Przykład – optyczne rozpoznawanie znaków za pomocą modelu SVM
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 8. Znajdowanie wzorców – analiza koszyka z wykorzystaniem reguł asocjacyjnych
Reguły asocjacyjne
Algorytm Apriori do nauki reguł asocjacyjnych
Mierzenie istotności reguł – wsparcie i ufność
Budowanie zbioru reguł z wykorzystaniem zasady Apriori
Przykład – identyfikowanie często kupowanych artykułów spożywczych za pomocą reguł asocjacyjnych
Etap 1. Gromadzenie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 9. Znajdowanie grup danych – klasteryzacja metodą k-średnich
Klasteryzacja
Klasteryzacja jako zadanie uczenia maszynowego
Klastry algorytmów klasteryzacji
Klasteryzacja metodą k-średnich
Znajdowanie segmentów rynkowych wśród nastolatków poprzez klasteryzację metodą k-średnich
Etap 1. Zbieranie danych
Etap 2. Badanie i przygotowywanie danych
Etap 3. Trenowanie modelu na danych
Etap 4. Ewaluacja modelu
Etap 5. Poprawianie działania modelu
Podsumowanie
Rozdział 10. Ewaluacja działania modelu
Mierzenie trafności klasyfikacji
Rozumienie prognoz klasyfikatora
Bliższe spojrzenie na macierze błędów
Używanie macierzy błędów do mierzenia trafności
Nie tylko dokładność – inne miary trafności
Wizualizacja kompromisów za pomocą krzywych ROC
Szacowanie przyszłej trafności
Metoda wstrzymywania
Walidacja krzyżowa
Próbkowanie bootstrapowe
Podsumowanie
Rozdział 11. Jak odnieść sukces w uczeniu maszynowym?
Co decyduje o sukcesie praktyka uczenia maszynowego?
Co decyduje o sukcesie modelu uczenia maszynowego?
Unikanie oczywistych prognoz
Przeprowadzanie uczciwych ewaluacji
Uwzględnianie realiów
Budowanie zaufania do modelu
Więcej „nauki” w „nauce o danych”
Notatniki R i znakowanie R
Zaawansowane badanie danych
Podsumowanie
Rozdział 12. Zaawansowane przygotowywanie danych
Inżynieria cech
Rola człowieka i maszyny
Wpływ big data i uczenia głębokiego
Praktyczna inżynieria cech
Podpowiedź 1. Znajdź nowe cechy podczas burzy mózgów
Podpowiedź 2. Znajdź spostrzeżenia ukryte w tekście
Podpowiedź 3. Przekształcaj zakresy liczbowe
Podpowiedź 4. Obserwuj zachowanie sąsiadów
Podpowiedź 5. Wykorzystaj powiązane wiersze
Podpowiedź 6. Dekomponuj szeregi czasowe
Podpowiedź 7. Dołącz dane zewnętrzne
tidyverse
„Schludne” struktury tabelaryczne – obiekty tibble
Szybsze odczytywanie plików prostokątnych za pomocą pakietów readr i readxl
Przygotowywanie i potokowe przetwarzanie danych za pomocą pakietu dplyr
Przekształcanie tekstu za pomocą pakietu stringr
Czyszczenie danych za pomocą pakietu lubridate
Podsumowanie
Rozdział 13. Trudne dane – za duże, za małe, zbyt złożone
Dane wysokowymiarowe
Stosowanie selekcji cech
Ekstrakcja cech
Używanie danych rozrzedzonych
Identyfikowanie danych rozrzedzonych
Przykład – zmiana odwzorowania rozrzedzonych danych kategorycznych
Przykład – dzielenie rozrzedzonych danych liczbowych na przedziały
Obsługa brakujących danych
Typy brakujących danych
Imputacja brakujących wartości
Problem niezrównoważonych danych
Proste strategie przywracania równowagi danych
Generowanie syntetycznego zrównoważonego zbioru danych z wykorzystaniem algorytmu SMOTE
Czy zrównoważone zawsze znaczy lepsze?
Podsumowanie
Rozdział 14. Budowanie lepiej uczących się modeli
Dostrajanie standardowych modeli
Określanie zakresu dostrajania hiperparametrów
Przykład – automatyczne dostrajanie za pomocą pakietu caret
Zwiększanie trafności modeli za pomocą zespołów
Uczenie zespołowe
Popularne algorytmy zespołowe
Spiętrzanie modeli do celów metanauki
Spiętrzanie i mieszanie modeli
Praktyczne metody mieszania i spiętrzania w języku R
Podsumowanie
Rozdział 15. Praca z big data
Praktyczne zastosowania uczenia głębokiego
Pierwsze kroki w uczeniu głębokim
Konwolucyjne sieci neuronowe
Uczenie nienadzorowane a big data
Reprezentowanie koncepcji wysokowymiarowych jako osadzeń
Wizualizacja danych wysokowymiarowych
Adaptowanie języka R do obsługi dużych zbiorów danych
Odpytywanie baz danych SQL
Szybsza praca dzięki przetwarzaniu równoległemu
Używanie wyspecjalizowanego sprzętu i algorytmów
Podsumowanie
Opinie
Na razie nie ma opinii o produkcie.