AlphaGo
AlphaGo to program komputerowy zaprojektowany do gry w go, stworzony przez firmę DeepMind. W listopadzie 2015 roku jako pierwszy automat pokonał zawodowego gracza, Fan Huia, w pięciorundowym pojedynku na pełnej planszy, osiągając wynik 5:0. W marcu 2016 roku w meczu przeciwko jednemu z najlepszych graczy zawodowych, Lee Sedolowi, wygrał 4:1, co zaowocowało przyznaniem mu honorowego 9. dan przez południowokoreańską federację go.
Algorytm, który stoi za tym programem, łączy techniki sieci neuronowych, uczenia maszynowego oraz wyszukiwania Monte Carlo.
22 grudnia 2016 roku został uznany przez czasopismo Science za jeden z „przełomów roku”.
Historia i współzawodnictwo
Gra w go ma znacznie wyższy poziom złożoności dla komputerów w porównaniu do innych gier, takich jak szachy, co jest spowodowane większym współczynnikiem rozgałęzienia, co utrudnia zastosowanie tradycyjnych technik, takich jak algorytm alfa-beta, przechodzenie drzewa oraz wyszukiwanie heurystyczne.
Prawie dwie dekady po tym, jak komputer IBM Deep Blue pokonał mistrza świata w szachach Garri Kasparowa (w 1997 roku), najsilniejsze programy do gry w go, wykorzystujące techniki sztucznej inteligencji, osiągnęły jedynie poziom amatora 5-dan i nie były w stanie pokonać profesjonalnych graczy bez handicapów. W 2012 roku program Zen, działający na czterech komputerach PC, pokonał Masakiego Takemiyę (9p) dwukrotnie z użyciem 5 i 4 kamieni handicap. W 2013 roku Crazy Stone pokonał Yoshio Ishidę (9p) w grach z czterema kamieniami handicap.
Według Davida Silvera, projekt badawczy AlphaGo został rozpoczęty około 2014 roku w celu zbadania, jak skutecznie sieć neuronowa wykorzystująca głębokie uczenie może konkurować w go. AlphaGo stanowi znaczący postęp w porównaniu do wcześniejszych programów go. W 500 grach przeciwko innym programom, takim jak Crazy Stone i Zen, AlphaGo działające na jednym komputerze przegrało jedynie raz. W podobnym zestawieniu, AlphaGo na wielu komputerach wygrało wszystkie 500 gier przeciwko innym programom go i 77% gier rozgrywanych przeciwko AlphaGo działającemu na jednym komputerze. Wersja rozproszona w październiku 2015 roku korzystała z 1202 CPU i 176 GPU.
Mecz przeciwko Fan Hui
W październiku 2015 roku, dystrybuowana wersja AlphaGo pokonała profesjonalnego mistrza europejskiego go Fana Huia, 2-dan (z 9 dan możliwych), pięć do zera. Był to pierwszy przypadek, w którym program komputerowy go pokonał profesjonalnego gracza na pełnej planszy bez handicapów. Ogłoszenie zwycięstwa zostało opóźnione do 27 stycznia 2016 roku, aby zbiegało się z publikacją w czasopiśmie „Nature”, opisującą zastosowane algorytmy.
Mecz przeciwko Lee Sedolowi
AlphaGo rozegrał pięć meczów z koreańskim zawodowcem go Lee Sedolem (9-dan), jednym z najlepszych graczy w go. Rozgrywka miała miejsce w hotelu Four Seasons w Seulu, w Korei Południowej, w dniach 9, 12, 13 i 15 marca 2016 roku i była transmitowana na żywo. Aja Huang, członek zespołu DeepMind i amator 6-dan w go, umieszczał kamienie na planszy zgodnie z instrukcjami AlphaGo, który działał w oparciu o Google Cloud Computing z serwerami w Stanach Zjednoczonych. Mecz odbywał się zgodnie z chińskimi zasadami z 7,5-punktowym komi, a każda ze stron miała dwie godziny na przemyślenie ruchu oraz trzy okresy po 60 sekund na byo-yomi. Wersja AlphaGo grająca przeciwko Lee korzystała z podobnej mocy obliczeniowej, jak w meczu z Fan Hui, wykorzystując 1920 CPU i 280 GPU.
Lee Sedol był drugim na świecie pod względem liczby zwycięstw w mistrzostwach świata w go. Mimo braku oficjalnego rankingu w międzynarodowym go, niektóre źródła uznały go za czwartego gracza na świecie w tamtym czasie. AlphaGo nie była specjalnie trenowana do gry przeciwko Lee Sedolowi.
Pierwsze trzy mecze wygrał AlphaGo, a Lee Sedol zrezygnował. Jednak w czwartej grze, Lee pokonał AlphaGo, wygrywając na ruchu 180. Mimo to, AlphaGo zdobyła czwartą wygraną, wygrywając piątą grę po rezygnacji Lee.
Nagroda wyniosła 1 milion USD. Ponieważ AlphaGo wygrało cztery z pięciu gier, nagroda została przekazana organizacjom charytatywnym, w tym UNICEF. Lee Sedol otrzymał 150 tys. USD za udział w pięciu meczach oraz dodatkowe 20 tys. USD za swoje pojedyncze zwycięstwo.
W czerwcu 2016 roku, podczas prezentacji na uniwersytecie w Holandii, Aja Huang ujawnił, że poprawił problem, który wystąpił podczas czwartej gry meczu między AlphaGo a Sedolem. Po ruchu 78. (który wielu ekspertów nazwało „ręką Boga”), AlphaGo grałby dokładnie i utrzymywałby przewagę, unikając błędów, które doprowadziły do przegranej. AlphaGo prowadziło w całej grze, a ruch Lee nie został uznany jako ten, który wygrał, lecz spowodował, że moce obliczeniowe programu zostały przekierowane i zdezorientowane. Huang wyjaśnił, że polityka sieci AlphaGo w znajdowaniu najdokładniejszej kolejności i kontynuacji ruchu doprowadziła AlphaGo do niewłaściwej kontynuacji po ruchu 78., ponieważ jego sieć wartościująca nie uznała, że 78. ruch Sedola jest najbardziej prawdopodobny, a po tym AlphaGo nie mogło dostosować się do logicznej kontynuacji.
Nieoficjalne mecze online pod koniec 2016 roku do początku 2017 roku
29 grudnia 2016 roku nowe konto o nazwie „Magist” z Korei Południowej zaczęło grać z profesjonalnymi graczami na serwerze Tygem. Dnia 30 grudnia zmieniono nazwę konta na „Master”, a następnie 1 stycznia 2017 roku przeniesiono na serwer FoxGo. 4 stycznia DeepMind potwierdził, że „Magister” i „Master” to grające i ulepszone wersje AlphaGo. Od 5 stycznia 2017 roku rekord internetowy AlphaGo wynosił 60 zwycięstw i 0 strat, w tym trzy zwycięstwa nad najlepszym graczem go, Ke Jie, który został wcześniej poinformowany, że „Master” to wersja AlphaGo. Po przegranej z „Masterem”, Gu Li zaoferował 100 000 juanów (około 14 400 USD) dla pierwszej osoby, która mogłaby pokonać „Mastera”. „Master” grał w tempie 10 gier dziennie. Wiele osób szybko zaczęło podejrzewać, że jest to sztuczna inteligencja z powodu niewielkich lub żadnych przerw między grami. Jej rywalami byli liczni mistrzowie świata, tacy jak Ke Jie, Park Jeong-hwan, Yuta Iyama, Tuo Jiaxi, Mi Yuting, Shi Yue, Chen Yaoye, Li Qincheng, Gu Li, Chang Hao, Tang Weixing, Fan Tingyu, Zhou Ruiyang, Jiang Weijie, Chou Chun-hsun, Kim Ji-seok, Kang Dong-yun, Park Yeong-hun i Won Seong-jin; mistrzowie krajowi lub mistrzowie świata, tacy jak Lian Xiao, Tan Xiao, Meng Tailing, Dang Yifei, Huang Yunsong, Yang Dingxin, Gu Zihao, Shin Jinseo, Cho Han-seung i An Sungjoon. Wszystkie 60 gier, z wyjątkiem jednej, odbyły się w szybkim tempie, z trzema 20 lub 30-sekundowymi okresami byo-yomi. „Master” zaproponował przedłużenie byo-yomi do jednej minuty, gdy grał z Nie Weipingiem ze względu na jego wiek. Po wygraniu 59. gry, „Master” ujawnił się na czacie jako kontrolowany przez dr Aję Huang z zespołu DeepMind, a następnie zmienił swoją narodowość na Zjednoczone Królestwo. Po tych meczach współtwórca Google DeepMind, Demis Hassabis, napisał na Twitterze: „czekamy na oficjalne, w pełni długie rozgrywki później w 2017 roku we współpracy z organizacjami go i ekspertami”.
Ludzcy gracze popełniają więcej błędów w szybkich grach online niż w pełnych turniejach. Nie wiadomo, czy AlphaGo odniesie sukces w turniejach tak jak w internecie. Jednak eksperci od go są pod wrażeniem wydajności AlphaGo oraz jego nieludzkiego stylu gry; Ke Jie stwierdził, że „Gdy ludzkość przez tysiące lat udoskonalała swoją taktykę, komputery pokazują nam, że ludzie są w całkowitym błędzie… Chciałbym powiedzieć, że żaden człowiek nie dotknął krawędzi prawdy go”.
Future of Go Summit w Wuzhen
Pod koniec maja 2017 roku AlphaGo zagrał kilka gier w Wuzhen:
- 23, 25 i 27 maja: Ke Jie vs. AlphaGo
- 24 maja: Drużyna Chińska (Chen Yaoye, Mi Yuting, Shi Yue, Tang Weixing, Zhou Ruiyang) vs. AlphaGo
- 26 maja: Pair Go: Gu Li i AlphaGo vs. Lian Xiao i AlphaGo
AlphaGo wygrało pierwszą grę z Ke Jie 23 maja, a także drugą 25 maja. Ostatecznie AlphaGo wygrało wszystkie mecze przeciwko Ke Jie, najlepszemu graczowi w go na świecie.
AlphaGo Zero i późniejsze programy
Kolejna, jeszcze potężniejsza wersja programu nosi nazwę AlphaGo Zero. Później stworzono także AlphaZero, który potrafi grać w szachy i shogi. DeepMind zaczęło podejmować badania nad sztuczną inteligencją w innych dziedzinach niż go, co doprowadziło do stworzenia programu AlphaFold, który zrewolucjonizował przewidywanie struktury białek.
Sprzęt
Wczesna wersja AlphaGo była testowana na różnych konfiguracjach sprzętowych z różnymi CPU i GPU, działającymi w trybie asynchronicznym lub rozproszonym. Na każdy ruch przyznano dwie sekundy czasu myślenia. Otrzymane oceny Elo są wymienione poniżej, a w meczach z większą ilością czasu na ruch osiągano wyższe wyniki.
W maju 2016 roku Google zaprezentowało własne, zastrzeżone urządzenia znane jako tensorowe jednostki przetwarzania (TPU), które były już wdrożone w wielu projektach wewnętrznych Google, w tym w meczu AlphaGo z Lee Sedolem.
Na szczycie Future of Go w maju 2017 roku DeepMind ujawniło, że wersja AlphaGo używana podczas tego wydarzenia nosiła nazwę AlphaGo Master i że zmierzono siłę różnych wersji oprogramowania. AlphaGo Lee, wersja używana przeciwko Lee, mogła dać AlphaGo Fan, wersji stosowanej w meczu AlphaGo vs. Fan Hui, trzy kamienie handicap, a AlphaGo Master była o kolejne trzy kamienie silniejsza.
Algorytm
Od 2016 roku algorytm AlphaGo wykorzystuje kombinację uczenia maszynowego i technik przechodzenia drzewa, w połączeniu z intensywnym szkoleniem, zarówno w grach przeciwko komputerom, jak i ludziom. Wykorzystuje Monte-Carlo Tree Search, kierując się „wartością sieci” i „polityką sieci”, realizowaną za pomocą technologii sieci neuronowych. Do przesyłania danych wejściowych przed ich wysłaniem do sieci neuronowych stosuje się ograniczoną ilość wstępnego przetwarzania detekcji funkcji specyficznych dla danej gry (na przykład aby zaznaczyć, czy ruch pasuje do wzoru nakade).
Sieci neuronowe systemu były początkowo załadowane z ludzką wiedzą na temat rozgrywek. AlphaGo początkowo trenowano, aby naśladować ludzką sztukę, próbując dopasować ruchy ekspertów do gier historycznych, wykorzystując bazę danych około 30 milionów ruchów. Po osiągnięciu pewnego poziomu biegłości, kontynuowano trening, grając przeciwko innym kopiom samego siebie, korzystając z nauki wzmocnienia, aby poprawić swoją grę. Aby uniknąć „lekceważenia” marnowania czasu przeciwnika, program został specjalnie zaprogramowany do rezygnacji, jeśli jego ocena prawdopodobieństwa wygrania spadnie poniżej określonego progu. W meczu w marcu 2016 roku przeciwko Lee, próg rezygnacji wynosił 20%.
Styl gry
Toby Manning, sędzia meczu AlphaGo vs. Fan Hui, opisuje styl programu jako „konserwatywny”. Styl gry AlphaGo jest zdecydowanie ukierunkowany na maksymalizację prawdopodobieństwa wygranej przy mniejszej liczbie punktów, w przeciwieństwie do ludzkiej strategii, która dąży do maksymalizacji zysków z pola gry, co wyjaśnia niektóre z dziwnych ruchów.
Odpowiedź na zwycięstwo nad Lee Sedolem w 2016 roku
Społeczność AI
Zwycięstwo AlphaGo w marcu 2016 roku było znaczącym krokiem w badaniach nad sztuczną inteligencją. Gra w go była wcześniej uważana za trudny problem w uczeniu maszynowym, który wydawał się poza zasięgiem technologii w tamtych czasach. Większość ekspertów uważała, że stworzenie programu go tak potężnego jak AlphaGo jest oddalone o co najmniej pięć lat, a niektórzy uważali, że zanim komputer pokona mistrzów go, minie jeszcze około dziesięciu lat. Większość obserwatorów meczu na początku 2016 roku oczekiwała, że Lee pokona AlphaGo.
W grach takich jak warcaby (gdzie program Chinook pokonał człowieka), szachy i teraz go, zwycięstwo komputera w popularnej grze planszowej nie może być już interpretowane jako główny krok dla sztucznej inteligencji, jak to miało miejsce wcześniej. Murray Campbell z Deep Blue nazwał zwycięstwo AlphaGo „końcem ery… gry planszowe są mniej lub bardziej skończone i nadszedł czas, aby przejść dalej”.
W porównaniu z Deep Blue czy Watsonem, algorytmy AlphaGo są potencjalnie bardziej ogólne i mogą świadczyć o postępach naukowej wspólnoty w kierunku silnej sztucznej inteligencji. Niektórzy komentatorzy uważają, że zwycięstwo AlphaGo otwiera pole do dyskusji na temat ewentualnych przyszłych wpływów maszyn na inteligencję ogólnego przeznaczenia. Jak zauważył przedsiębiorca Guy Suter, sama AlphaGo wie tylko, jak grać w go i nie ma ogólnej inteligencji: „Nie mogłaby się obudzić pewnego ranka i zdecydować, że chce nauczyć się używać broni palnej”. W marcu 2016 roku Stuart Russell stwierdził, że „techniki AI rozwijają się znacznie szybciej niż się spodziewano, co sprawia, że kwestia długoterminowych efektów staje się bardziej pilna”, dodając, że „zapewnienie, że coraz silniejsze systemy AI pozostaną całkowicie pod kontrolą człowieka… jest wiele do zrobienia”. Niektórzy naukowcy, tacy jak Stephen Hawking, ostrzegali (w maju 2015 roku przed meczami), że niektóre przyszłe samodoskonalące się AI mogą uzyskać rzeczywistą ogólną inteligencję, co prowadziłoby do nieoczekiwanego przejęcia kontroli przez AI; inni naukowcy się z tym nie zgadzają. Ekspert AI Jean-Gabriel Ganascia uważa, że „takie rzeczy jak „rozsądek”… nigdy nie będą odtwarzalne” i mówi: „nie rozumiem, dlaczego mówimy o obawach, przeciwnie, to powoduje wiele nadziei w wielu dziedzinach, takich jak badania dotyczące zdrowia i przestrzeni kosmicznej”. Informatyk Richard Sutton dodaje: „Nie sądzę, że ludzie powinni się bać…, ale myślę, że powinni zwracać uwagę”.
Społeczność go
Go jest popularną grą w Chinach, Japonii i Korei, a mecze z 2016 roku były śledzone przez setki milionów osób na całym świecie. Wielu czołowych graczy go określało grę AlphaGo jako nieortodoksyjne, a pozornie wątpliwe ruchy, które początkowo zaskakiwały widzów, miały sens w dalszej perspektywie: „Wszyscy najlepsi gracze go doskonalą swój styl, naśladując najlepszych graczy. AlphaGo wydaje się mieć zupełnie oryginalne ruchy poprzez samoistne ich stwarzanie”. AlphaGo okazało się nieoczekiwanie silniejsze, nawet w porównaniu z jego meczem z października 2015 roku, kiedy komputer po raz pierwszy w historii pokonał zawodowego gracza go bez użycia handicapów. Nazajutrz po pierwszej porażce Lee, Jeong Ahram, czołowy korespondent dla jednego z największych dzienników w Korei Południowej, powiedział: „Ostatnia noc była bardzo mroczna… Wielu piło alkohol”. Korea Baduk Association, organizacja nadzorująca profesjonalnych graczy go w Korei Południowej, przyznała AlphaGo honorowy tytuł 9-dan za wykazanie umiejętności twórczych i przyspieszenie postępów w grze.
Ke Jie, chiński 18-latek, powszechnie uznawany za najlepszego gracza na świecie, początkowo twierdził, że mógłby pokonać AlphaGo, ale odmówił grania przeciwko programowi, obawiając się, że „mógłby skopiować mój styl”. W miarę postępów w meczach, Ke Jie stwierdził, że „bardzo prawdopodobne jest, że mogę przegrać” po analizie pierwszych trzech meczów, ale odzyskał pewność po tym, jak AlphaGo popełnił błędy w czwartej rozgrywce.
Toby Manning, sędzia meczu AlphaGo przeciwko Fan Hui, oraz Hajin Lee, sekretarz generalny Międzynarodowej Federacji Go, stwierdzili, że w przyszłości gracze w go będą mogli korzystać z komputerów, aby dowiedzieć się, co zrobili źle w grach i poprawić swoje umiejętności.
Po dwóch meczach Lee powiedział, że czuje się „oniemiały”: „Już od samego początku meczu nie udało mi się zdobyć przewagi nad pojedynczym ruchem, było to całkowite zwycięstwo AlphaGo”. Lee przeprosił za swoje straty, stwierdzając po trzeciej grze, że „źle oceniłem możliwości AlphaGo i poczułem się bezsilny”. Podkreślił wówczas „to ja, Lee Sedol, przegrałem, nie ludzkość”. Lee zaznaczył, że jego ostateczna porażka przeciwko maszynie „była nieunikniona”, ale stwierdził, że „roboty nigdy nie zrozumieją piękna gry tak samo, jak my, ludzie”. Lee nazwał swoją czwartą grę „bezcennym zwycięstwem, którego nie wymieniłbym za nic”.
Podobne systemy
Facebook pracuje również nad własnym systemem do gry w go, nazwanym Darkforest, opartym na połączeniu uczenia maszynowego i przechodzenia drzewa. Dotychczas nie pokonał jeszcze zawodowego gracza. Darkforest przegrał z CrazyStone i Zen i ma być do nich podobny.
DeepZenGo, system opracowany przy wsparciu portalu Dwango i Uniwersytetu Tokio, przegrał 2-1 w listopadzie 2016 roku z mistrzem go Cho Chikunem, który zajmuje wysokie miejsce w Japonii.
Przypisy
Linki zewnętrzne
Podstrona programu na oficjalnej stronie producenta: deepmind.com. [dostęp 2017-07-07]. (ang.).