Agregacja (uczenie maszynowe)

Agregacja bootstrapowa

Agregacja, znana również jako agregacja bootstrapowa lub agregacja przykładów wstępnych (ang. bagging, od bootstrap aggregating), to metaalgorytm uczenia maszynowego, który został stworzony w celu poprawy stabilności i dokładności algorytmów stosowanych w klasyfikacji oraz regresji. Jego celem jest również zmniejszenie wariancji i ryzyka przeuczenia. Choć metody te są najczęściej wykorzystywane w kontekście drzew decyzyjnych, mogą być również zastosowane do innych technik. Agregacja stanowi szczególny przypadek metody uśredniania zespołowego.

Opis techniki

Dla zbioru uczącego D o liczebności n, agregacja polega na wygenerowaniu m nowych zbiorów uczących Di, z których każdy ma rozmiar n’, poprzez losowe pobieranie próbek z D ze zwracaniem. Oznacza to, że niektóre obserwacje mogą się powtarzać. Jeżeli n’ jest równe n, dla dużych wartości n zbiór Di będzie zawierać około 63,2% (1 – 1/e) unikalnych obserwacji, a reszta będzie stanowić duplikaty. Taką próbkę określa się mianem próbki bootstrapowej. Proces pobierania próbek ze zwracaniem sprawia, że każda próbka bootstrapowa jest niezależna od pozostałych, ponieważ jej zawartość nie zależy od składów wcześniej pobranych próbek. Następnie na podstawie tych próbek dopasowuje się m modeli, które łączone są poprzez uśrednianie wyników (w przypadku regresji) lub za pomocą głosowania (w przypadku klasyfikacji).

Agregacja bootstrapowa zazwyczaj umożliwia „ulepszenie procedur niestabilnych”, do których zalicza się m.in. sztuczne sieci neuronowe, drzewa klasyfikacyjne oraz regresyjne, a także wybór podzbiorów w regresji liniowej. Wykazano, że technika ta poprawia wstępne etapy rozpoznawania obrazów. Z drugiej strony, może ona nieznacznie obniżyć wydajność stabilnych metod, takich jak metoda k najbliższych sąsiadów.

Zalety i wady

Zalety:

  • Połączenie wielu słabych modeli prowadzi do uzyskania lepszych rezultatów oraz mniejszego ryzyka przeuczenia w porównaniu do pojedynczego modelu bazującego na całym zbiorze danych.
  • Metoda ta zmniejsza wariancję w słabych modelach o dużej wariancji i małym obciążeniu, co może poprawić ich wydajność.
  • Możliwość wykorzystania przetwarzania równoległego, gdyż każda próbka bootstrapowa może być przetwarzana oddzielnie przed agregacją.

Wady:

  • W przypadku słabych modeli z wysokim obciążeniem, wynik zagregowany nadal może charakteryzować się obciążeniem.
  • Utrata interpretowalności modelu.
  • Algorytm może być kosztowny obliczeniowo, w zależności od wielkości zbioru danych.

Historia

Koncepcja agregacji bootstrapowej wywodzi się z idei bootstrappingu, opracowanej przez Bradleya Efrona. To Leo Breiman zaproponował agregację bootstrapową, wprowadzając jednocześnie skróconą nazwę „bagging” (bootstrap aggregating). Breiman opracował tę koncepcję w 1994 roku, aby poprawić proces klasyfikacji przez łączenie wyników z losowo generowanych zbiorów uczących. Stwierdził, że „jeżeli zakłócenie w zbiorze uczącym może prowadzić do istotnych zmian w skonstruowanym predyktorze, to bagging ma potencjał poprawy dokładności”.

Przypisy

Zobacz także