Wyciągaj trafne wnioski!
Posiadanie zbiorów danych to połowa sukcesu. Druga połowa to umiejętność ich skutecznej analizy i wyciągania wniosków! Dopiero na tej podstawie będziesz w stanie właściwie ocenić kondycję Twojej firmy oraz podjąć słuszne decyzje. Wiedza zawarta w tej książce może zadecydować o sukcesie biznesowym lub porażce. Nie ryzykuj i sięgnij po to doskonałe źródło wiedzy, poświęcone nauce o danych.
To unikalny podręcznik, który pomoże Ci sprawnie opanować nawet najtrudniejsze zagadnienia związane z analizą danych. Dowiedz się, jak zbudowany jest proces eksploracji danych, z jakich narzędzi możesz skorzystać oraz jak stworzyć model predykcyjny i dopasować go do danych. W kolejnych rozdziałach przeczytasz o tym, czym grozi nadmierne dopasowanie modelu i jak go unikać oraz jak wyciągać wnioski metodą najbliższych sąsiadów. Na koniec zaznajomisz się z możliwościami wizualizacji skuteczności modelu oraz odkryjesz związek pomiędzy nauką o danych a strategią biznesową. To obowiązkowa lektura dla wszystkich osób chcących podejmować świadome decyzje na podstawie posiadanych danych!
Dzięki tej książce:
- poznasz model predykcyjny
- dowiesz się, jak dopasować model do danych
- zwizualizujesz skuteczność zbudowanego modelu
- zwiększysz swoje szanse na osiągnięcie sukcesu biznesowego!
Przeanalizuj posiadane dane i podejmij trafne decyzje!
Spis treści:
Przedmowa
1. Wstęp: myślenie w kategoriach analityki danych
Wszechobecność możliwości pozyskiwania danych
Przykład: huragan Frances
Przykład: prognozowanie odpływu klientów
Nauka o danych, inżynieria i podejmowanie decyzji na podstawie danych
Przetwarzanie danych i Big Data
Od Big Data 1.0 do Big Data 2.0
Dane i potencjał nauki o danych jako aktywa strategiczne
Myślenie w kategoriach analityki danych
Nasza książka
Eksploracja danych i nauka o danych, nowe spojrzenie
Chemia to nie probówki: nauka o danych kontra praca badacza danych
Podsumowanie
2. Problemy biznesowe a rozwiązania z zakresu nauki o danych
Podstawowe pojęcia: Zbiór kanonicznych zadań związanych z eksploracją danych; Proces eksploracji danych; Nadzorowana i nienadzorowana eksploracja danych.
Od problemów biznesowych do zadań eksploracji danych
Metody nadzorowane i nienadzorowane
Eksploracja danych i jej wyniki
Proces eksploracji danych
Zrozumienie uwarunkowań biznesowych
Zrozumienie danych
Przygotowanie danych
Modelowanie
Ewaluacja
Wdrożenie
Implikacje w sferze zarządzania zespołem nauki o danych
Inne techniki i technologie analityczne
Statystyka
Zapytania do baz danych
Magazynowanie danych
Analiza regresji
Uczenie maszynowe i eksploracja danych
Odpowiadanie na pytania biznesowe z wykorzystaniem tych technik
Podsumowanie
3. Wprowadzenie do modelowania predykcyjnego: od korelacji do nadzorowanej segmentacji
Podstawowe pojęcia: Identyfikowanie atrybutów informatywnych; Segmentowanie danych za pomocą progresywnej selekcji atrybutów.
Przykładowe techniki: Wyszukiwanie korelacji; Wybór atrybutów/zmiennych; Indukcja drzew decyzyjnych.
Modele, indukcja i predykcja
Nadzorowana segmentacja
Wybór atrybutów informatywnych
Przykład: wybór atrybutu z wykorzystaniem przyrostu informacji
Nadzorowana segmentacja z użyciem modeli o strukturze drzewa
Wizualizacja segmentacji
Drzewa jako zbiory reguł
Szacowanie prawdopodobieństwa
Przykład: rozwiązywanie problemu odpływu abonentów z wykorzystaniem indukcji drzewa
Podsumowanie
4. Dopasowywanie modelu do danych
Podstawowe pojęcia: Znajdowanie "optymalnych" parametrów modelu na podstawie danych; Wybieranie celu eksploracji danych; Funkcje celu; Funkcje straty.
Przykładowe techniki: Regresja liniowa; Regresja logistyczna; Maszyny wektorów wspierających.
Klasyfikacja za pomocą funkcji matematycznych
Liniowe funkcje dyskryminacyjne
Optymalizacja funkcji celu
Przykład wydobywania dyskryminatora liniowego z danych
Liniowe funkcje dyskryminacyjne do celów scoringu i szeregowania wystąpień
Maszyny wektorów wspierających w skrócie
Regresja za pomocą funkcji matematycznych
Szacowanie prawdopodobieństwa klas i "regresja" logistyczna
* Regresja logistyczna: kilka szczegółów technicznych
Przykład: indukcja drzew decyzyjnych a regresja logistyczna
Funkcje nieliniowe, maszyny wektorów wspierających i sieci neuronowe
Podsumowanie
5. Nadmierne dopasowanie i jego unikanie
Podstawowe pojęcia: Generalizacja; Dopasowanie i nadmierne dopasowanie; Kontrola złożoności.
Przykładowe techniki: Sprawdzian krzyżowy; Wybór atrybutów; Przycinanie drzew; Regularyzacja.
Generalizacja
Nadmierne dopasowanie ("przeuczenie")
Badanie nadmiernego dopasowania
Dane wydzielone i wykresy dopasowania
Nadmierne dopasowanie w indukcji drzew decyzyjnych
Nadmierne dopasowanie w funkcjach matematycznych
Przykład: nadmierne dopasowanie funkcji liniowych
* Przykład: dlaczego nadmierne dopasowanie jest niekorzystne?
Od ewaluacji danych wydzielonych do sprawdzianu krzyżowego
Zbiór danych dotyczących odpływu abonentów - nowe spojrzenie
Krzywe uczenia się
Unikanie nadmiernego dopasowania i kontrola złożoności
Unikanie nadmiernego dopasowania w indukcji drzew decyzyjnych
Ogólna metoda unikania nadmiernego dopasowania
* Unikanie nadmiernego dopasowania w celu optymalizacji parametrów
Podsumowanie
6. Podobieństwo, sąsiedzi i klastry
Podstawowe pojęcia: Obliczanie podobieństwa obiektów opisanych przez dane; Wykorzystywanie podobieństwa do celów predykcji; Klastrowanie jako segmentacja oparta na podobieństwie.
Przykładowe techniki: Poszukiwanie podobnych jednostek; Metody najbliższych sąsiadów; Metody klastrowania; Miary odległości do obliczania podobieństwa.
Podobieństwo i odległość
Wnioskowanie metodą najbliższych sąsiadów
Przykład: analityka whisky
Najbliżsi sąsiedzi w modelowaniu predykcyjnym
Ilu sąsiadów i jak duży wpływ?
Interpretacja geometryczna, nadmierne dopasowanie i kontrola złożoności
Problemy z metodami najbliższych sąsiadów
Kilka istotnych szczegółów technicznych dotyczących podobieństw i sąsiadów
Atrybuty heterogeniczne
* Inne funkcje odległości
* Funkcje łączące: obliczanie wskaźników na podstawie sąsiadów
Klastrowanie
Przykład: analityka whisky - nowe spojrzenie
Klastrowanie hierarchiczne
Najbliżsi sąsiedzi na nowo: klastrowanie wokół centroidów
Przykład: klastrowanie wiadomości biznesowych
Zrozumienie wyników klastrowania
* Wykorzystywanie uczenia nadzorowanego do generowania opisów klastrów
Krok wstecz: rozwiązywanie problemu biznesowego kontra eksploracja danych
Podsumowanie
7. Myślenie w kategoriach analityki decyzji I: co to jest dobry model?
Podstawowe pojęcia: Staranne rozważenie, czego oczekujemy od wyników nauki o danych; Wartość oczekiwana jako kluczowa platforma ewaluacji; Uwzględnianie odpowiednich porównawczych punktów odniesienia.
Przykładowe techniki: Różne miary ewaluacji; Szacowanie kosztów i korzyści; Obliczanie oczekiwanego zysku; Tworzenie metod bazowych dla porównań.
Ewaluacja klasyfikatorów
Zwykła dokładność i jej problemy
Macierz pomyłek
Problemy z niezrównoważonymi klasami
Problemy nierównych kosztów i korzyści
Generalizowanie poza klasyfikacją
Kluczowa platforma analityczna: wartość oczekiwana
Wykorzystywanie wartości oczekiwanej do systematyzowania zastosowania klasyfikatora
Wykorzystywanie wartości oczekiwanej do systematyzowania ewaluacji klasyfikatora
Ewaluacja, skuteczność bazowa oraz implikacje dla inwestowania w dane
Podsumowanie
8. Wizualizacja skuteczności modelu
Podstawowe pojęcia: Wizualizacja skuteczności modelu przy różnych rodzajach niepewności; Dalsze rozważania odnośnie tego, czego należy oczekiwać od wyników eksploracji danych.
Przykładowe techniki: Krzywe zysku; Krzywe łącznej reakcji; Krzywe przyrostu; Krzywe ROC.
Ranking zamiast klasyfikowania
Krzywe zysku
Wykresy i krzywe ROC
Pole pod krzywą ROC (AUC)
Krzywe łącznej reakcji i krzywe przyrostu
Przykład: analityka skuteczności w modelowaniu odpływu abonentów
Podsumowanie
9. Dowody i prawdopodobieństwa
Podstawowe pojęcia: Jednoznaczne łączenie dowodów za pomocą twierdzenia Bayesa; Wnioskowanie probabilistyczne poprzez założenia warunkowej niezależności.
Przykładowe techniki: Klasyfikacja bayesowska; Przyrost wartości dowodu.
Przykład: targetowanie klientów reklam internetowych
Probabilistyczne łączenie dowodów
Prawdopodobieństwo łączne i niezależność
Twierdzenie Bayesa
Zastosowanie twierdzenia Bayesa w nauce o danych
Niezależność warunkowa i naiwny klasyfikator bayesowski
Zalety i wady naiwnego klasyfikatora bayesowskiego
Model "przyrostu" wartości dowodu
Przykład: przyrosty wartości dowodów z "polubień" na Facebooku
Dowody w akcji: targetowanie klientów reklamami
Podsumowanie
10. Reprezentacja i eksploracja tekstu
Podstawowe pojęcia: Znaczenie konstruowania przyjaznych eksploracji reprezentacji danych; Reprezentacja tekstu do celów eksploracji danych.
Przykładowe techniki: Reprezentacja worka słów (bag of words); Kalkulacja TFIDF; N-gramy; Sprowadzanie do formy podstawowej (stemming); Ekstrakcja wyrażeń nazwowych; Modele tematyczne.
Dlaczego tekst jest istotny
Dlaczego tekst jest trudny
Reprezentacja
Worek słów (bag of words)
Częstość termów
Mierzenie rzadkości (sparseness): odwrotna częstość w dokumentach
Łączenie reprezentacji: TFIDF
Przykład: muzycy jazzowi
* Związek IDF z entropią
Oprócz worka słów
N-gramy
Ekstrakcja wyrażeń nazwowych
Modele tematyczne
Przykład: eksploracja wiadomości w celu prognozowania zmian cen akcji
Zadanie
Dane
Wstępne przetwarzanie danych
Wyniki
Podsumowanie
11. Myślenie w kategoriach analityki decyzji II: w kierunku inżynierii analitycznej
Podstawowe pojęcie: Rozwiązywanie problemów biznesowych z wykorzystaniem nauki o danych rozpoczyna się od inżynierii analitycznej: projektowania rozwiązania analitycznego z wykorzystaniem dostępnych danych, narzędzi i technik.
Przykładowa technika: Wartość oczekiwana jako platforma opracowania rozwiązania z zakresu nauki o danych.
Targetowanie najlepszych potencjalnych klientów przesyłek organizacji pozyskujących fundusze
Platforma wartości oczekiwanej: rozkład problemu biznesowego i ponowne zestawienie elementów rozwiązania
Krótka dygresja na temat stronniczości selekcji
Nowe, jeszcze bardziej zaawansowane spojrzenie na nasz przykład odpływu abonentów
Platforma wartości oczekiwanej: strukturyzacja bardziej skomplikowanego problemu biznesowego
Ocena wpływu zachęty
Od rozkładu wartości oczekiwanej do rozwiązania z obszaru nauki o danych
Podsumowanie
12. Inne zadania i techniki nauki o danych
Podstawowe pojęcia: Nasze podstawowe pojęcia jako baza wielu typowych technik nauki o danych; Znaczenie wiedzy o elementach składowych nauki o danych.
Przykładowe techniki: Zależność i współwystępowanie; Profilowanie zachowań; Predykcja połączeń; Redukcja danych; Eksploracja informacji ukrytych; Rekomendowanie filmów; Rozkład błędu pod względem stronniczości - wariancji; Zespoły modeli; Wnioskowanie przyczynowe z danych.
Współwystąpienia i zależności: znajdowanie elementów, które idą w parze
Pomiar zaskoczenia: przyrost i dźwignia
Przykład: piwo i kupony loteryjne
Zależności pomiędzy polubieniami na Facebooku
Profilowanie: znajdowanie typowego zachowania
Predykcja połączeń i rekomendacje społecznościowe
Redukcja danych, informacje ukryte i rekomendacje filmów
Stronniczość, wariancja i metody zespalania
Oparte na danych wyjaśnianie przyczynowe i przykład marketingu wirusowego
Podsumowanie
13. Nauka o danych i strategia biznesowa
Podstawowe pojęcia: Nasze zasady jako podstawa sukcesu firmy działającej na podstawie danych; Zdobywanie i utrzymywanie przewagi konkurencyjnej za pomocą nauki o danych; Znaczenie dbałości o potencjał nauki o danych.
Myślenie w kategoriach analityki danych, raz jeszcze
Osiąganie przewagi konkurencyjnej przy pomocy nauki o danych
Utrzymywanie przewagi konkurencyjnej przy pomocy nauki o danych
Nadzwyczajna przewaga historyczna
Wyjątkowa własność intelektualna
Wyjątkowe niematerialne aktywa zabezpieczające
Lepsi badacze danych
Lepsze zarządzanie zespołem nauki o danych
Pozyskiwanie badaczy danych i ich zespołów oraz opieka nad nimi
Badanie studiów przypadku z zakresu nauki o danych
Gotowość do przyjmowania kreatywnych pomysłów z każdego źródła
Gotowość do oceny propozycji projektów z zakresu nauki o danych
Przykładowa propozycja eksploracji danych
Błędy w propozycji Big Red
Dojrzałość firmy w sferze nauki o danych
Zakończenie
Podstawowe pojęcia nauki o danych
Zastosowanie naszych podstawowych pojęć do nowego problemu: eksploracji danych urządzeń przenośnych
Zmiana sposobu myślenia o rozwiązaniach problemów biznesowych
Czego dane nie mogą dokonać: nowe spojrzenie na decydentów
Prywatność, etyka i eksploracja danych dotyczących konkretnych osób
Czy jest coś jeszcze w nauce o danych?
Ostatni przykład: od crowdsourcingu do cloudsourcingu
Kilka słów na zakończenie
A. Przewodnik dotyczący oceny propozycji
Zrozumienie uwarunkowań biznesowych i zrozumienie danych
Przygotowanie danych
Modelowanie
Ewaluacja i wdrożenie
B. Jeszcze jedna przykładowa propozycja
Scenariusz i propozycja
Wady propozycji GGC
C. Słowniczek
D. Bibliografia
Skorowidz

