14 Ocak 2018 Pazar

Haftanın Makalesi (II): "Statistical Modeling: The Two Cultures"

Bu hafta istatistik ve veri analizi üzerinden iki bakış açısını inceleyen bir makale 'Haftanın Makalesi'nin konusu. Makale için, yazarının bir süre akademide istatistikle uğraştıktan sonra ara verip on yılın üzerinde dışarıda 'gerçek dünya problemleri' üzerine kafa yorup danışmanlık yaptığı, ardından bölüme geri döndüğünde karşılaştığı duruma bir tepki niteliği yazdığı bir yazı demek daha doğru olur belki de. 2001 gibi yakın bir zamanda yayınlandığında belki dönemin istatistikçileri ve belki alternatif olarak bilgisayar bilimcilerini ilgilendiren bir konuya değiniyordu ama günümüzdeki gelişmeleri göz önüne aldığımızda artık hemen hemen tüm bilim alanlarının dert ettiği bir konuya parmak basıyor: model'den yola çıkarak mı yoksa sadece veriden yola çıkarak mı analiz yapacağız?

Makale, başlığında görüldüğü üzere iki tip istatistiksel modelleme kültürü tartışması üzerinden ilerliyor. Birincisi 'Veri Modelleme' (Data Modelling) kültürü. Bu kültürdeki temel yöntem, elimizdeki verinin belirli parametrelere, belirleyici değişkenlere ve rastgele hatayı içeren bir modelden elde edilmiş bağımsız örnekler olduğunu varsayarak ve bu modelin belirli bir model ailesinden olduğu bilgisiyle başlayıp bir takım sonuçlar elde etmek; bu sonuçlardan da bu veriyi oluşturan doğadaki sürecin mekanizmasına dair fikir yürütme. Örneğin veriyi üreten sürecin doğrusal olduğunu varsayan doğrusal ya da lojistik regresyon gibi... İkincisi 'Algoritmik Modelleme' (Algorithmic Modelling) kültürü. Bunda da doğada bir takım girdilere karşı elde edilen çıktıların üretilme mekanizmalarının oldukça karmaşık ve çoğu zaman bilinemeyecek kara kutular olduğunu varsayıp, probleme algoritma perspektifinden yaklaşmak temel yöntem. Çıktıları en iyi üreten ve çalışma mekanizmaları çoğu zaman net bir şekilde yorumlanamayan tipte modelleme şeklinde düşünülebilir. Örneğin günümüzde sıkça duyduğumuz 'yapay sinir ağları' ya da 'karar ağaçları' tipi yapay öğrenme (machine learning) yöntemleri gibi...

Yazar ilk tipten modellemenin çoğu zaman doğadaki mekanizmalarla alakasız ve sonuçları kuşkulu çıkarımlara neden olduğunu ve bu yaklaşımının görüntü işleme, ses tanıma, doğrusal olmayan süreçlerin verileri gibi alanlar için oldukça eksik kaldığını dile getiriyor. Bunun için danışmanlık yaptığı işlerde uğraştığı üç örnek problem üzerinden 'algoritmik modelleme' ile nasıl yaklaşımlar getirdiğini ve bu yaklaşımların standart veri modelleme yaklaşımlarına göre açık ara farklı olduğunu gösteriyor.

Yazarın 'algoritmik modelleme' dediği kültürün tekniklerini çeşitli 'yapay öğrenme' yönemleri oluşturuyor. Günümüzde bu yöntemler elimizin altındaki bilgisayarların işlem gücünün müthiş artışı, özellikle yapay sinir ağlarını eğitmek için oldukça efektif yöntemlerin geliştirilmiş olması ve birçok kanalda 'büyük veri' akışı sebebiyle neredeyse karşı konulamaz bir güce erişmiş durumdalar. Fizik gibi 'veri modelleme' kültürü üzerine inşa edilmiş ve üretilen modelin Ockham'ın Usturası üstrubu gereği yorumlanabilme ölçütü üzerinden değerlendirildiği bir alanda dahi yavaş yavaş kendisine uygulama alanları bulabiliyor. (Durumun geldiği noktayı daha iyi görmek adına geçen sene Science'ın yayınladığı kapak konusu aydınlatıcı olabilir. ) Kısacası yazarın yaklaşın 15 yıl önce vardığı sonuçların en azından şu anda fazlasıyla doğrulandığı ve mevcut "kültür trendini" belirlediği açıkça görülüyor. Elbette bu tip yöntemler oldukça yeniler ve bir  takım darboğazlara da sahipler; 'algoritmik kültürün' hızlı yükselişiyle birlikte zaman hangi kültürün baskın çıkacağını gösterecek.

Makaleyi okumak için: Statistical Modelling: Two Cultures (Statist. Sci. Volume 16, Issue 3 (2001), 199-231.)

Hiç yorum yok:

Yorum Gönder