Bir Go tahtasının yakın çekimi: tahta üzerinde küçük beyaz ve siyah taşlar dizilmiş, ahşap kâse içinde fazla taşlar görünüyor, ışık tahtanın damarlarını öne çıkarıyor. — Go: 19x19'luk tahtada iki oyuncunun siyah-beyaz taşlarla bölge kapatma oyunu. Kurallar bir sayfada anlatılabilir; oynanan oyunların sayısı evrendeki atom sayısını geçer. AlphaGo'nun çözmesi, hesabın değil sezginin yapay olarak inşa edilebileceğini gösterdi.CC BY-SA 4.0

9-15 Mart 2016 · Four Seasons Hotel, Seul, Güney Kore

AlphaGo Lee Sedol'u yendi: zekânın yeni bir biçimi

DeepMind'ın geliştirdiği AlphaGo programı, 18 kez dünya şampiyonu Lee Sedol'u Go oyununda 4-1 yendi. Satrançtan 10^170 kat daha karmaşık olan bu oyun, "kaba kuvvet" hesapla çözülemez sayılıyordu; AlphaGo derin sinir ağları + Monte Carlo ağaç araması + pekiştirmeli öğrenme ile bir AI'nın "sezgi" geliştirebileceğini gösterdi.

1997'de Deep Blue, dünya satranç şampiyonu Garry Kasparov'u yendiğinde bilgisayar zekâsı için bir köşe taşı kabul edildi. Ama Deep Blue temelde devasa bir hesap makinesiydi: saniyede 200 milyon pozisyon değerlendiren, insan ustalarının yazdığı kurallarla çalışan bir kaba kuvvet motoru. Go, Doğu Asya'da 2.500 yıl öncesinden gelen bir oyun, aynı mantığa kapalı kaldı. Tahta 19x19 — 361 hane, oyun başına yaklaşık 250 olası hamle, 150 hamlelik tipik bir oyunda 10^170 farklı oyun ağacı. Evrendeki atom sayısından (10^80) daha fazla. "Klasik" arama imkânsızdı. Çoğu uzman, bir bilgisayarın insan profesyonelini yenmesinin en az 10-20 yıl daha alacağını söylüyordu.

Londra merkezli DeepMind — Demis Hassabis, Shane Legg ve Mustafa Suleyman'ın 2010'da kurduğu, 2014'te Google tarafından 400 milyon sterline satın alınan şirket — farklı bir yol denedi. AlphaGo üç tekniği birleştirdi: (1) milyonlarca insan oyunundan öğrenen "policy" sinir ağı — "bu pozisyonda iyi bir hamle ne olabilir?" sorusunu çabuk cevaplıyor; (2) "value" sinir ağı — "bu pozisyonda kim kazanır?" sorusunu tahmin ediyor; (3) Monte Carlo ağaç araması — bu iki ağ tarafından yönlendirilen, milyonlarca olası gelecek çizgisini hızlıca tarayan algoritma. Üstüne pekiştirmeli öğrenme: AlphaGo kendi kendine milyonlarca oyun oynayarak gelişti.

9-15 Mart 2016'da Seul'deki Four Seasons Otel'inde, Güney Koreli Lee Sedol — 21. yüzyılın en güçlü oyuncularından biri, 18 uluslararası şampiyona kazanmış — AlphaGo ile beş oyun oynadı. Ödül 1 milyon dolar, izleyici 200 milyonu aştı, çoğu Doğu Asya'da. AlphaGo 4-1 kazandı. İkinci oyundaki 37. hamle ("Move 37") tarihte yerini aldı: profesyonel yorumcular onu "insan tarzı dışında", "yanlış görünen ama derinde doğru" diye nitelendirdi. Lee Sedol da dördüncü oyunda "78. hamle" ile ("Hand of God") karşı bir tarihî hamle oynayarak tek galibiyetini aldı — son insan-zaferi olarak kayda geçti, Lee 2019'da emekliliğini açıklarken "yenilmez olmayan ama aşılamayacak bir varlığa karşı oynanmış" dedi.

Sonrası daha hızlı geldi. Ekim 2017'de AlphaGo Zero, insan oyunlarına hiç bakmadan, sadece kurallar verilerek, 40 gün boyunca kendi kendine oynayıp orijinal AlphaGo'yu 100-0 yendi. 2018'de aynı teknik AlphaFold'a uygulandı: 50 yıldır biyolojinin en büyük problemlerinden biri olan protein katlama, sinir ağlarıyla insan-doğruluğunda çözüldü; Hassabis 2024 Nobel Kimya ödülünü aldı. 2017'deki "Transformer" mimarisi ve AlphaGo'nun gösterdiği "büyük model + büyük veri + büyük hesap" formülü birleşti; 2022 ChatGPT, 2023 GPT-4, 2024 nesli muhakeme modelleri hep bu çizginin devamı. Lee Sedol'a karşı oynanan o beş oyun, sonradan yapay zekâ tarihçileri tarafından genel-amaçlı AI çağının pratik başlangıç noktası sayıldı.

Galeri

Konum

Kaynaklar

Mastering the game of Go with deep neural networks and tree search — Silver et al. 2016 — Nature
Mastering the game of Go without human knowledge (AlphaGo Zero) — Silver et al. 2017 — Nature
AlphaGo — DeepMind research page — Google DeepMind

← Zaman çizgisine dön

Google Maps

EONpedia

Galeri

Konum

Kaynaklar