Makineler öğreniyor, ya biz? (1)

METE VEYİSOĞLU

Yapay zeka (artificial intelligence) ve makine öğrenimi (machine learning) kavramları hayatımıza gireli epey bir zaman oluyor. Yapay zeka terimi ilk olarak 1955 yılında ABD’de Dartmouth Üniversitesi’nden yayınlanan bir araştırma konferansı çağrısında kullanılmıştı (1). Bu nispeten uzun tanışıklığımıza rağmen; hem kurumsal hem de bireysel düzeyde, bu teknolojiyi ve arkasında yatan felsefeyi iş süreçlerimize ne kadar entegre etmemiz gerektiği zihinlerimizde henüz tam anlamıyla billurlaşmadı. Sadece Türkiye’de değil, dünyada da bu kafa karışıklığı sürüyor; öyle ki ABD’nin ünlü üniversitelerinden MIT (Massachusetts Institute of Technology) de bu ihtiyacı görüp bir yapay zeka stratejisi belirlemek isteyen yöneticilere yardımcı olacak bir rehberi henüz yayınladı (2).

Makine öğrenimini kısaca tanımlarsak; algoritmik bir modelin tarihsel bir veri setini kullanarak verideki örüntüleri (pattern) öğrenmesi, ve öğrendiklerini kullanarak yeni veri setlerinde tahminleme yapmasıdır. Örneğin bir banka, geçmişte firmalara verdiği kredilerin geri ödenme sonucunu, yani ödendi veya ödenmedi ayrımını, ve bu sonucu etkileyen değişkenleri (firmanın cirosu, karlılığı, kredinin faizi, vb) içeren bir tarihsel veri seti kullanarak, bugünkü cirosu ve karlılığı bilinen firmalara vereceği kredilerin geri ödenme ihtimalini tahminleyebilir. Makinenin, geçmiş verileri kullanarak öğrendiği aşamaya ‘eğitim’ (training) deniyor.

Makine öğrenimi 2000’li yıllarda görüntü tanıma (computer vision) gibi bazı alanlarda olağanüstü ilerleme kaydetti. Bu ilerlemede bilgisayarların artan hesaplama gücünün ve makine öğrenimi modellerinde kullanılan yeni algoritmaların rolü olduğu kadar, hatta daha fazla, eğitim aşamasında kullanmaları için makinelere sunulan eğitim veri setlerinin muazzam büyüklüğü öne çıkmaktadır. Örneğin 2012’de görüntü tanımada çığır açan AlexNet modeli, 1.2 milyon adet görüntü içeren bir eğitim veri seti kullanmıştı. Bu veri seti, crowd-sourcing yöntemiyle, yani çok sayıda insanın görüntülerin ne içerdiğini etiketleyip makineye öğrenmesi için sunmasıyla oluşturulmuştu. Peki eğitim veri setinin büyüklüğü neden önemli?

Diyelim bir çiçekçide işe başladınız. Orkide ve zambak çiçeklerini daha önce hiç görmediniz ve elinizde orkide veya zambak olarak sınıflandırmanız gereken onlarca çiçek var. Hiçbir eğitim almadıysanız ancak rasgele bir sınıflandırma yapabilirsiniz ve muhtemelen %50 civarı bir doğruluk oranı elde edersiniz. Oysa elinizin altında birkaç adet orkide veya zambak olarak etiketlenmiş resim olsa, çiçekleri biraz tanıyıp muhtemelen %50’den daha iyi bir doğruluk oranı yakalarsınız. Birkaç örnek resim %100 doğruluk oranını yakalamanız için yeterli olmayacaktır, zira iki türün de çok çeşitli alt türleri olabilir ve eğitim veri setinizde görmediğiniz bir zambak alt türü ile karşılaşırsanız, yanlış sınıflandırabilirsiniz. Öte yandan; AlexNet örneğindeki gibi, orkide veya zambak olarak etiketlenmiş yüzlerce hatta binlerce resme sahipseniz, bu iki çiçeğin hemen hemen tüm alt türlerinin karakteristik yönlerini tanırsınız ve yeni çiçekler ile karşılaştığınızda muhtemelen %100’e yakın bir doğruluk oranı yakalarsınız. İşte, eğitim veri setinin büyüklüğü bu nedenle tahminleme modelinizin performansını belirleyen başlıca faktördür.

Kaynaklar/ Notlar

(1) http://jmc.stanford.edu/articles/dartmouth/dartmouth.pdf

Minsky ve Shannon gibi alanın öncülerinin imzasını taşıyan bu bildiri,   zamanının  ötesindeki şu ifadeyle başlıyor: “Öğrenmenin her çeşidi veya zekanın öğrenme haricindeki tüm diğer özellikleri, bir makinenin taklit edebileceği kadar detaylı tasvir edilebilir”. 

(2) https://pages.awscloud.com/gc-450-mit-ml-executive-guide.html   bağlantısından rehberi ücretsiz indirebilirsiniz.

 

METE VEYİSOĞLU

Makineler öğreniyor, ya biz (1)

Alman Lisesi ve Boğaziçi Üniversitesi Elektrik-Elektronik Mühendisliği bölümünden mezun olan Mete Veyisoğlu, iş yaşamına Nortel Netaş’ta mühendis olarak başladı. 2013’ten beri ise Koç Üniversitesi’nde akademik planlama ve karar alma süreçlerini destekleyecek veri analizleri yapıyor. İşlenen verilerin büyük boyutlara ulaşması ve istatistiksel modellerin kritik önemdeki stratejik kararları direkt etkilemesi sebebiyle, bu alanda uzmanlaşmak istedi ve Birleşik Krallık tarafından sağlanan Chevening burs programı çerçevesinde 2018’de UCL’de (University College London) Veri Bilimi Yüksek Lisansı yaptı. Halen Koç Üniversitesi’nde Akademik Strateji ve Analiz Direktörü olarak görev yapıyor.