Ana Sayfa Kuantum Bilişim Bilgisayar Bilimcileri; Büyük Olan Sinir Ağlarının Neden Diğerlerinden Daha İyi Olduğunu Kanıtladı

Bilgisayar Bilimcileri; Büyük Olan Sinir Ağlarının Neden Diğerlerinden Daha İyi Olduğunu Kanıtladı

804
259

İki araştırmacı, sinir ağlarının daha iyi ezberleyebilmeleri için düşünülenden çok daha fazla parametreye ihtiyaç duyduklarını gösterdi.

Başparmaklara çok şey borçluyuz. Evrim bize birden fazla başparmak kazandırmış olsaydı bile muhtemelen işler pek de farklı olmayacaktı. Çünkü, tek başparmak bir el için yeterlidir.

İnsansı görevleri yerine getirmek için önde gelen yapay zeka sistemleri olan sinir ağları için durum böyle değil. Sinir ağları büyüdükçe daha fazlasını kavramaya başladı ve bu durum gözlemciler için de sürpriz bir sonuç oldu. Temel matematiksel sonuçlar, bu ağların yalnızca çok büyük olması gerektiğini önermişti, ancak modern sinir ağları öngörülen gereksinimin çok daha ötesinde ölçeklendirilmektedir. Bu, durumu aşırı parametreleştirme olarak tanımlanmaktadır.

Microsoft Research’ten Sébastien Bubeck ve Stanford Üniversitesi’nden Mark Sellke, alandaki önde gelen konferanslardan biri olan NeurIPS’de Aralık 2021’de sundukları bir makalede, ölçeklemenin başarısının ardındaki gizem için yeni bir açıklama yaptı. İkili, bazı temel problemlerden kaçınmak için sinir ağlarının geleneksel olarak beklenenden çok daha büyük olması gerektiğini gösterdi. Bu bulgu, yıllardır cevabı bilinmeyen bu soruya genel bir öngörü sunmaktadır.

İsviçre Federal Teknoloji Enstitüsü Lozan’dan Lenka Zdeborová; “Bu gerçekten ilginç bir matematik ve teori sonucudur. Bunu çok genel bir şekilde kanıtlıyorlar. Yani bu bir anlamda, bilgisayar biliminin temeline iniyor” ifadelerini kullanmıştır.

Sinir ağlarının boyutuna ilişkin standart beklentiler, verileri nasıl ezberlediklerinin analizine dayanır. Ancak ezberlemeyi anlamak için önce ağların ne yaptığını anlamamız gerekmektedir.

Görüntülerdeki nesneleri tanımlamak, sinir ağları için yaygın olan bir görevdir. Bunu yapabilen bir ağ oluşturmak için, araştırmacılar önce ona birçok görüntü ve nesne etiketi göstererek aralarındaki bağıntıları öğrenmesi için onu eğitir. Daha sonra ağ, daha önce gördüğü bir görüntüdeki nesneyi doğru bir şekilde tanımlamaya başlar. Başka bir deyişle, eğitim bir ağın verileri ezberlemesine neden olur.

Daha da dikkat çekici bir şekilde, bir ağ yeterli eğitim verisini ezberlediğinde, daha önce hiç görmediği nesnelerin etiketlerini değişen doğruluk derecelerinde tahmin etme yeteneğini de kazanır. Bu ikinci süreç genelleme olarak bilinir.

Bir ağın boyutunu, ağın ne kadar ezberleyebileceğini belirler. Bu grafiksel olarak anlaşılabilir. Bir x ve y düzlemine yerleştirdiğiniz iki veri noktası aldığınızı hayal edin. Bu noktaları iki parametre ile tanımlanan bir doğru ile birleştirebilirsiniz; doğrunun eğimi ve dikey ekseni kestiğinde yüksekliği. Daha sonra başka birine orijinal veri noktalarından birinin x koordinatının yanı sıra çizgi verilirse, yalnızca çizgiye bakarak (veya parametreleri kullanarak) karşılık gelen y koordinatını bulabilir. Böylece çizgi, iki veri noktasını da ezberlemiş olur.

Sinir ağları benzer bir şeyi yapar. Örneğin görüntüler, her piksel için bir tane olmak üzere yüzlerce veya binlerce değerle tanımlanır. Bu birçok serbest değer kümesi, yüksek boyutlu uzayda bir noktanın koordinatlarına matematiksel olarak eşdeğerdir. Burada koordinat sayısına boyut denilmektedir.

Eski bir matematiksel sonuç, n veri noktasını bir eğriye yerleştirmek için; n parametreli bir fonksiyona ihtiyacınız olduğunu söylüyor. (Önceki örnekte, iki nokta iki parametreli bir eğri ile tanımlanmak idi) Sinir ağları 1980’lerde ilk ortaya çıktığında, bu sonucun sinir ağları için de geçerli olduğu düşünülüyordu; yani verinin boyutundan bağımsız olarak, n veri noktası için n parametre yeterli olmalıydı.

Austin, Texas Üniversitesi’nden Alex Dimakis; “artık olan bu değil” dedi. “Şu anda, rutin olarak, eğitim örneklerinin sayısından daha fazla sayıda parametreye sahip sinir ağları oluşturuyoruz. Bu, kitapların yeniden yazılması gerektiğini gösteriyor.”

Bubeck ve Sellke hiçbir şeyi yeniden yazmak için yola çıkmamıştı. Sinir ağlarının genellikle sahip olmadığı, sağlamlık adı verilen ve bir ağın küçük değişikliklerle başa çıkma yeteneği olan farklı bir özellik üzerinde çalışıyorlardı. Örneğin, sağlam olmayan bir ağ bir zürafayı tanımayı öğrenmiş olabilir, ancak azıcık değiştirilmiş bir sürümü zürafayı gerbil (bir sıçan türü) olarak yanlış etiketleyebilecektir. 

2019’da Bubeck ve meslektaşları, bu sorunla ilgili teoremleri kanıtlamaya çalışıyorlarken, sorunun ağın boyutuna bağlı olduğunu buldular.

Bubeck; “Karşıt örnekler üzerinde çalışıyorduk ve sonra ölçek bize kendini empoze etti” dedi. “Bunun inanılmaz bir fırsat olduğunu anlamıştık çünkü ölçeğin kendisini anlamamız gerekiyordu.”

Çift yeni kanıtlarında bir ağın sağlam olması için aşırı parametrelendirmenin gerekli olduğunu göstermiştir. Bunu, sağlamlığa eşdeğer matematiksel bir özellik olan pürüssüzlüğe sahip olma koşuluyla, veri noktalarını bir eğriye yerleştirmek için kaç parametrenin gerekli olduğunu bularak yaptılar.

Bunu görmek için, x-koordinatının tek bir pikselin rengini ve y-koordinatının bir görüntü etiketini temsil ettiği düzlemde bir eğri hayal edin. Eğri düzgün olduğundan, eğri boyunca kısa bir mesafe hareket ettirerek pikselin rengini hafifçe değiştirecek olursanız, karşılık gelen tahmin yalnızca küçük bir miktarda değişecektir. Öte yandan, aşırı derecede pürüzlü bir eğri için, x koordinatındaki küçük bir değişiklik (renk), y koordinatında çarpıcı bir değişikliğe (görüntü etiketi) yol açabilir. Zürafalar gerbil olabilir.

Bubeck ve Sellke, yüksek boyutlu veri noktalarının sorunsuz bir şekilde yerleştirilmesinin yalnızca n parametre değil, girdinin boyutu d olduğunda n×d parametre gerektirdiğini gösterdi (örneğin, 784 piksellik bir görüntü için 784). Başka bir deyişle, bir ağın eğitim verilerini sağlam bir şekilde ezberlemesini istiyorsanız, aşırı parametrelendirme sadece yardımcı olmakla kalmaz, aynı zamanda zorunlu olur. Kanıt, yüksek boyutlu geometriyle ilgili ilginç bir gerçeğe dayanıyor; bu, bir kürenin yüzeyine rastgele dağılmış noktaların neredeyse hepsinin birbirinden tam bir çap uzakta olduğudur. Noktalar arasındaki büyük ayrım, hepsini tek bir düzgün eğri ile yerleştirmenin birçok ekstra parametre gerektirdiği anlamına gelir.

Yale Üniversitesi’nden Amin Karbasi; “Kanıt çok basit, ağır bir matematik içermiyor ve çok genel bir şey söylüyor” dedi.

Sonuç, bu basit sinir ağlarını büyütme stratejisinin neden bu kadar etkili olduğunu anlamanın yeni bir yolunu sunuyor.

Diğer araştırmalar, aşırı parametrelendirmenin yararlı olmasının ek nedenlerini de ortaya çıkardı. Örneğin bu yeni yöntem, bir ağın genelleme yeteneğinin yanı sıra eğitim sürecinin verimliliğini de artırabilir. Ancak sağlamlık için aşırı parametrelendirmenin gerekli olduğunu bildiğimiz halde, diğer şeyler için sağlamlığın ne kadar gerekli olduğunu tam olarak bilmiyoruz. Yeni kanıt, bunu aşırı parametrelendirmeye bağlayarak, sağlamlığın düşünülenden daha önemli olabileceğini, birçok avantajın kilidini açan bir anahtar olabileceğini gösteriyor.

Bubeck “Sağlamlık, genelleme için bir ön koşul gibi görünüyor. Bir sisteminiz varsa ve üzerinde biraz oynadıktan sonra işler karışıyorsa, bu sağlam bir sistem midir? Bu mantıklı değil. Bunun çok temel ve basit bir gereklilik olduğunu düşünüyorum” ifadelerine yer vermektedir.


Yazar: Engin Bahri Baç
Redaktör: Murat Albayrak

Kaynaklar:

Bu içeriği paylaş
Önceki İçerikQuantum Machines, PPU; Pulse Processing Unit; Halka Açık Hale Getirilerek, Gerçek Zamanlı Kuantum Hata Düzeltmesine Olanak Sağladı
Sonraki İçerikÇin’de iki şehir arasında Kuantum Data Hattı kuruldu

Yoruma kapalı.