Promocja!

GŁĘBOKIE UCZENIE PRZEZ WZMACNIANIE WYD.2

LAPAN M.

Informatyka

Original price was: 149.00zł.Current price is: 134.10zł.

Na stanie

Dodaj książkę do listy życzeń

SPIS TREŚCI

O autorze

O recenzentach

Wstęp

Rozdział 1. Czym jest uczenie przez wzmacnianie

Uczenie nadzorowane
Uczenie nienadzorowane
Uczenie przez wzmacnianie
Trudności związane z uczeniem przez wzmacnianie
Formalne podstawy uczenia przez wzmacnianie
- Nagroda
- Agent
- Środowisko
- Akcje
- Obserwacje
Teoretyczne podstawy uczenia przez wzmacnianie
- Procesy decyzyjne Markowa
- Polityka
Podsumowanie

Rozdział 2. Zestaw narzędzi OpenAI Gym

Anatomia agenta
Wymagania sprzętowe i programowe
Interfejs API biblioteki OpenAI Gym
- Przestrzeń akcji
- Przestrzeń obserwacji
- Środowisko
- Tworzenie środowiska
- Sesja CartPole
Losowy agent dla środowiska CartPole
Dodatkowa funkcjonalność biblioteki Gym – opakowania i monitory
- Opakowania
- Monitory
Podsumowanie

Rozdział 3. Uczenie głębokie przy użyciu biblioteki PyTorch

Tensory
- Tworzenie tensorów
- Tensory skalarne
- Operacje na tensorach
- Tensory GPU
Gradienty
- Tensory a gradienty
Bloki konstrukcyjne sieci neuronowych
Warstwy definiowane przez użytkownika
Funkcje straty i optymalizatory
- Funkcje straty
- Optymalizatory
Monitorowanie za pomocą narzędzia TensorBoard
- Podstawy obsługi narzędzia TensorBoard
- Narzędzia do tworzenia wykresów
Przykład – użycie sieci GAN z obrazami Atari
Biblioteka PyTorch Ignite
- Zasady działania biblioteki Ignite
Podsumowanie

Rozdział 4. Metoda entropii krzyżowej

Taksonomia metod uczenia przez wzmacnianie
Praktyczne wykorzystanie entropii krzyżowej
Użycie entropii krzyżowej w środowisku CartPole
Użycie metody entropii krzyżowej w środowisku FrozenLake
Teoretyczne podstawy metody entropii krzyżowej
Podsumowanie

Rozdział 5. Uczenie tabelaryczne i równanie Bellmana

Wartość, stan i optymalność
Równanie optymalności Bellmana
Wartość akcji
Metoda iteracji wartości
Wykorzystanie iteracji wartości w praktyce
Q-uczenie w środowisku FrozenLake
Podsumowanie

Rozdział 6. Głębokie sieci Q

Rozwiązywanie realnego problemu z wykorzystaniem metody iteracji wartości
Q-uczenie tabelaryczne
Głębokie Q-uczenie
- Interakcja ze środowiskiem
- Optymalizacja za pomocą stochastycznego spadku wzdłuż gradientu (SGD)
- Korelacja pomiędzy krokami
- Własność Markowa
- Ostateczna wersja procedury trenowania dla głębokich sieci Q
Użycie głębokiej sieci Q w grze Pong
- Opakowania
- Model głębokiej sieci Q
- Trenowanie
- Uruchomienie programu i sprawdzenie jego wydajności
- Użycie modelu
Rzeczy do przetestowania
Podsumowanie

Rozdział 7. Biblioteki wyższego poziomu uczenia przez wzmacnianie

Dlaczego potrzebujemy bibliotek uczenia przez wzmacnianie?
Biblioteka PTAN
- Selektory akcji
- Agent
- Źródło doświadczeń
- Bufory doświadczeń
- Klasa TargetNet
- Klasy upraszczające współpracę z biblioteką Ignite
Rozwiązanie problemu środowiska CartPole za pomocą biblioteki PTAN
Inne biblioteki związane z uczeniem przez wzmacnianie
Podsumowanie

Rozdział 8. Rozszerzenia sieci DQN

Podstawowa, głęboka sieć Q
- Wspólna biblioteka
- Implementacja
- Wyniki
Głęboka sieć Q o n krokach
- Implementacja
- Wyniki
Podwójna sieć DQN
- Implementacja
- Wyniki
Sieci zakłócone
- Implementacja
- Wyniki
Bufor priorytetowy
- Implementacja
- Wyniki
Rywalizujące sieci DQN
- Implementacja
- Wyniki
Kategoryczne sieci DQN
- Implementacja
- Wyniki
Połączenie wszystkich metod
- Wyniki
Podsumowanie
Bibliografia

Rozdział 9. Sposoby przyspieszania metod uczenia przez wzmacnianie

Dlaczego prędkość ma znaczenie?
Model podstawowy
Wykres obliczeniowy w bibliotece PyTorch
Różne środowiska
Granie i trenowanie w oddzielnych procesach
Dostrajanie opakowań
Podsumowanie testów
Rozwiązanie ekstremalne: CuLE
Podsumowanie
Bibliografia

Rozdział 10. Inwestowanie na giełdzie za pomocą metod uczenia przez wzmacnianie

Handel
Dane
Określenie problemu i podjęcie kluczowych decyzji
Środowisko symulujące giełdę
Modele
Kod treningowy
Wyniki
- Model ze sprzężeniem wyprzedzającym
- Model konwolucyjny
Rzeczy do przetestowania
Podsumowanie

Rozdział 11. Alternatywa – gradienty polityki

Wartości i polityka
- Dlaczego polityka?
- Reprezentacja polityki
- Gradienty polityki
Metoda REINFORCE
- Przykład środowiska CartPole
- Wyniki
- Porównanie metod opartych na polityce z metodami opartymi na wartościach
Ograniczenia metody REINFORCE
- Wymagane jest ukończenie epizodu
- Wariancja dużych gradientów
- Eksploracja
- Korelacja danych
Zastosowanie metody gradientu polityki w środowisku CartPole
- Implementacja
- Wyniki
Zastosowanie metody gradientu polityki w środowisku Pong
- Implementacja
- Wyniki
Podsumowanie

Rozdział 12. Metoda aktor-krytyk

Zmniejszenie poziomu wariancji
Wariancja w środowisku CartPole
Aktor-krytyk
Użycie metody A2C w środowisku Pong
- Wyniki użycia metody A2C w środowisku Pong
- Dostrajanie hiperparametrów
Podsumowanie

Rozdział 13. Asynchroniczna wersja metody aktor-krytyk

Korelacja i wydajność próbkowania
Zrównoleglenie metody A2C
Przetwarzanie wieloprocesorowe w języku Python
Algorytm A3C wykorzystujący zrównoleglenie na poziomie danych
- Implementacja
- Wyniki
Algorytm A3C wykorzystujący zrównoleglenie na poziomie gradientów
- Implementacja
- Wyniki
Podsumowanie

Rozdział 14. Trenowanie chatbotów z wykorzystaniem uczenia przez wzmacnianie

Czym są chatboty?
Trenowanie chatbotów
Podstawy głębokiego przetwarzania języka naturalnego
- Rekurencyjne sieci neuronowe
- Osadzanie słów
- Architektura koder-dekoder
Trenowanie modelu koder-dekoder
- Trenowanie z wykorzystaniem logarytmu prawdopodobieństwa
- Algorytm „Bilingual Evaluation Understudy” (BLEU)
- Zastosowanie uczenia przez wzmacnianie w modelu koder-dekoder
- Krytyczna analiza trenowania sekwencji
Projekt chatbota
- Przykładowa struktura
- Moduły cornell.py i data.py
- Wskaźnik BLEU i moduł utils.py
- Model
Eksploracja zbioru danych
Trenowanie – entropia krzyżowa
- Implementacja
- Wyniki
Trenowanie – metoda SCST
- Implementacja
- Wyniki
Przetestowanie modeli przy użyciu danych
Bot dla komunikatora Telegram
Podsumowanie

Rozdział 15. Środowisko TextWorld

Fikcja interaktywna
Środowisko
- Instalacja
- Generowanie gry
- Przestrzenie obserwacji i akcji
- Dodatkowe informacje o grze
Podstawowa sieć DQN
- Wstępne przetwarzanie obserwacji
- Osadzenia i kodery
- Model DQN i agent
- Kod treningowy
- Wyniki trenowania
Model generujący polecenia
- Implementacja
- Wyniki uzyskane po wstępnym trenowaniu
- Kod treningowy sieci DQN
- Wyniki uzyskane po trenowaniu sieci DQN
Podsumowanie

Rozdział 16. Nawigacja w sieci

Nawigacja w sieci
Automatyzacja działań w przeglądarce i uczenie przez wzmacnianie
Test porównawczy MiniWoB
OpenAI Universe
- Instalacja
- Akcje i obserwacje
- Tworzenie środowiska
- Stabilność systemu MiniWoB
Proste klikanie
- Akcje związane z siatką
- Przegląd rozwiązania
- Model
- Kod treningowy
- Uruchamianie kontenerów
- Proces trenowania
- Testowanie wyuczonej polityki
- Problemy występujące podczas prostego klikania
Obserwacje ludzkich działań
- Zapisywanie działań
- Format zapisywanych danych
- Trenowanie z wykorzystaniem obserwacji działań
- Wyniki
- Gra w kółko i krzyżyk
Dodawanie opisów tekstowych
- Implementacja
- Wyniki
Rzeczy do przetestowania
Podsumowanie

Rozdział 17. Ciągła przestrzeń akcji

Dlaczego jest potrzebna ciągła przestrzeń akcji?
- Przestrzeń akcji
- Środowiska
Metoda A2C
- Implementacja
- Wyniki
- Użycie modeli i zapisywanie plików wideo
Deterministyczne gradienty polityki
- Eksploracja
- Implementacja
- Wyniki
- Nagrywanie plików wideo
Dystrybucyjne gradienty polityki
- Architektura
- Implementacja
- Wyniki
- Nagrania wideo
Rzeczy do przetestowania
Podsumowanie

Rozdział 18. Metody uczenia przez wzmacnianie w robotyce

Roboty i robotyka
- Złożoność robota
- Przegląd sprzętu
- Platforma
- Sensory
- Siłowniki
- Szkielet
Pierwszy cel trenowania
Emulator i model
- Plik z definicją modelu
- Klasa robota
Trenowanie zgodnie z algorytmem DDPG i uzyskane wyniki
Sterowanie sprzętem
- MicroPython
- Obsługa czujników
- Sterowanie serwomechanizmami
- Przenoszenie modelu do sprzętu
- Połączenie wszystkiego w całość
Eksperymentowanie z polityką
Podsumowanie

Rozdział 19. Regiony zaufania – PPO, TRPO, ACKTR i SAC

Biblioteka Roboschool
Model bazowy A2C
- Implementacja
- Wyniki
- Nagrywanie plików wideo
Algorytm PPO
- Implementacja
- Wyniki
Algorytm TRPO
- Implementacja
- Wyniki
Algorytm ACKTR
- Implementacja
- Wyniki
Algorytm SAC
- Implementacja
- Wyniki
Podsumowanie

Rozdział 20. Optymalizacja typu „czarna skrzynka” w przypadku uczenia przez wzmacnianie

Metody typu „czarna skrzynka”
Strategie ewolucyjne
- Testowanie strategii ewolucyjnej w środowisku CartPole
- Testowanie strategii ewolucyjnej w środowisku HalfCheetah
Algorytmy genetyczne
- Testowanie algorytmu genetycznego w środowisku CartPole
- Dostrajanie algorytmu genetycznego
- Testowanie algorytmu genetycznego w środowisku HalfCheetah
Podsumowanie
Bibliografia

Rozdział 21. Zaawansowana eksploracja

Dlaczego eksploracja jest ważna?
Co złego jest w metodzie epsilonu zachłannego?
Alternatywne sposoby eksploracji
- Sieci zakłócone
- Metody oparte na liczebności
- Metody oparte na prognozowaniu
Eksperymentowanie w środowisku MountainCar
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Metoda DQN z wykorzystaniem sieci zakłóconych
- Metoda DQN z licznikami stanów
- Optymalizacja bliskiej polityki
- Metoda PPO z wykorzystaniem sieci zakłóconych
- Metoda PPO wykorzystująca eksplorację opartą na liczebności
- Metoda PPO wykorzystująca destylację sieci
Eksperymentowanie ze środowiskami Atari
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Klasyczna metoda PPO
- Metoda PPO z wykorzystaniem destylacji sieci
- Metoda PPO z wykorzystaniem sieci zakłóconych
Podsumowanie
Bibliografia

Rozdział 22. Alternatywa dla metody bezmodelowej – agent wspomagany wyobraźnią

Metody oparte na modelu
- Porównanie metody opartej na modelu z metodą bezmodelową
- Niedoskonałości modelu
Agent wspomagany wyobraźnią
- Model środowiskowy
- Polityka wdrożenia
- Koder wdrożeń
- Wyniki zaprezentowane w artykule
Użycie modelu I2A w grze Breakout
- Podstawowy agent A2C
- Trenowanie modelu środowiskowego
- Agent wspomagany wyobraźnią
Wyniki eksperymentów
- Agent podstawowy
- Trenowanie wag modelu środowiskowego
- Trenowanie przy użyciu modelu I2A
Podsumowanie
Bibliografia

Rozdział 23. AlphaGo Zero

Gry planszowe
Metoda AlphaGo Zero
- Wprowadzenie
- Przeszukiwanie drzewa metodą Monte Carlo (MCTS)
- Granie modelu z samym sobą
- Trenowanie i ocenianie
Bot dla gry Czwórki
- Model gry
- Implementacja algorytmu przeszukiwania drzewa metodą Monte Carlo (MCTS)
- Model
- Trenowanie
- Testowanie i porównywanie
Wyniki uzyskane w grze Czwórki
Podsumowanie
Bibliografia

Rozdział 24. Użycie metod uczenia przez wzmacnianie w optymalizacji dyskretnej

Rola uczenia przez wzmacnianie
Kostka Rubika i optymalizacja kombinatoryczna
Optymalność i liczba boska
Sposoby układania kostki
- Reprezentacja danych
- Akcje
- Stany
Proces trenowania
- Architektura sieci neuronowej
- Trenowanie
Aplikacja modelowa
Wyniki
Analiza kodu
- Środowiska kostki
- Trenowanie
- Proces wyszukiwania
Wyniki eksperymentu
- Kostka 2×2
- Kostka 3×3
Dalsze usprawnienia i eksperymenty
Podsumowanie

Rozdział 25. Metoda wieloagentowa

Na czym polega działanie metody wieloagentowej?
- Formy komunikacji
- Użycie uczenia przez wzmacnianie
Środowisko MAgent
- Instalacja
- Przegląd rozwiązania
- Środowisko losowe
Głęboka sieć Q obsługująca tygrysy
- Trenowanie i wyniki
Współpraca między tygrysami
Trenowanie tygrysów i jeleni
Walka pomiędzy równorzędnymi aktorami
Podsumowanie

Autor	LAPAN M.
ISBN	978-83-283-8052-3
Liczba stron	720
Rok wydania	2023
Wydawca	Helion

Opinie

Na razie nie ma opinii o produkcie.

Napisz pierwszą opinię o „GŁĘBOKIE UCZENIE PRZEZ WZMACNIANIE WYD.2”

GŁĘBOKIE UCZENIE PRZEZ WZMACNIANIE WYD.2

LAPAN M.

Opinie

Szukaj

Wybrane

Kategorie

GŁĘBOKIE UCZENIE PRZEZ WZMACNIANIE WYD.2

LAPAN M.

Opinie

Podobne produkty

REKONFIGUROWALNY FIREWALL IMPLEMENTOWANY W UKŁADACH FPGA

INFORMATYCZNE NARZĘDZIA ZARZĄDZANIA WIEDZĄ

SZTUCZNA INTELIGENCJA

BAZY DANYCH DLA STUDENTÓW PODSTAWY PROJEKTOWANIA I JĘZYKA SQL

META-UCZENIE W INTELIGENCJI OBLICZENIOWEJ

Szukaj

Wybrane

Kategorie