Küçük Dil Modelleri Yeni Moda

Küçük Dil Modelleri Yeni Moda
REKLAM ALANI
Yayınlama: 14.04.2025
Düzenleme: 14.04.2025 21:40
1
A+
A-

Büyük dil modelleri çok büyük oldukları için iyi çalışır. OpenAI, Meta ve DeepSeek’in en son modelleri, veriler arasındaki bağlantıları belirleyen ve eğitim süreci sırasında ayarlanan ayarlanabilir düğmeler olan yüz milyarlarca “parametre” kullanır. Daha fazla parametreyle, modeller desenleri ve bağlantıları daha iyi tanımlayabilir, bu da onları daha güçlü ve doğru hale getirir.

Ancak bu gücün bir bedeli var. Yüzlerce milyar parametreli bir modeli eğitmek devasa hesaplama kaynakları gerektirir. Örneğin, Google’ın Gemini 1.0 Ultra modelini eğitmek için 191 milyon dolar harcadığı bildirildi . Büyük dil modelleri (LLM’ler) ayrıca bir isteğe her yanıt verdiklerinde önemli miktarda hesaplama gücü gerektirir ve bu da onları kötü şöhretli enerji tüketicileri yapar. Electric Power Research Institute’a göre ChatGPT’ye yapılan tek bir sorgu, tek bir Google aramasından yaklaşık 10 kat daha fazla enerji tüketir.

Buna karşılık, bazı araştırmacılar artık küçük düşünüyor. IBM, Google, Microsoft ve OpenAI yakın zamanda birkaç milyar parametre kullanan küçük dil modelleri (SLM’ler) yayınladılar; bu, LLM muadillerinin çok daha küçük bir kısmıdır.

Küçük modeller, daha büyük kuzenleri gibi genel amaçlı araçlar olarak kullanılmaz. Ancak, konuşmaları özetlemek, bir sağlık hizmeti sohbet robotu olarak hasta sorularını yanıtlamak ve akıllı cihazlarda veri toplamak gibi belirli, daha dar tanımlı görevlerde mükemmel olabilir. Carnegie Mellon Üniversitesi’nde bilgisayar bilimcisi olan Zico Kolter , “Birçok görev için, 8 milyar parametreli bir model aslında oldukça iyidir” dedi. Ayrıca, büyük bir veri merkezi yerine bir dizüstü bilgisayarda veya cep telefonunda da çalışabilirler. (“Küçük”ün kesin tanımı konusunda bir fikir birliği yoktur, ancak yeni modellerin hepsi yaklaşık 10 milyar parametreye kadar çıkar.)

Araştırmacılar, bu küçük modeller için eğitim sürecini optimize etmek için birkaç numara kullanırlar. Büyük modeller genellikle ham eğitim verilerini internetten toplar ve bu veriler düzensiz, dağınık ve işlenmesi zor olabilir. Ancak bu büyük modeller daha sonra küçük bir modeli eğitmek için kullanılabilecek yüksek kaliteli bir veri kümesi üretebilir. Bilgi damıtımı adı verilen yaklaşım, daha büyük modelin eğitimini etkili bir şekilde aktarmasını sağlar, tıpkı bir öğretmenin öğrencisine ders vermesi gibi. Kolter, “[SLM’lerin] bu kadar küçük modeller ve bu kadar az veriyle bu kadar iyi olmasının nedeni, dağınık veriler yerine yüksek kaliteli veriler kullanmalarıdır” dedi.

Araştırmacılar ayrıca büyük modellerle başlayıp onları küçülterek küçük modeller oluşturmanın yollarını da araştırdılar. Budama olarak bilinen bir yöntem, büyük bir modelin temelini oluşturan bağlı veri noktalarının geniş ağı olan sinir ağının gereksiz veya verimsiz kısımlarını kaldırmayı gerektirir.

Budama, gerçek hayattaki bir sinir ağı olan insan beyninden esinlenmiştir. İnsan beyni, yaşlandıkça sinapslar arasındaki bağlantıları keserek verimlilik kazanır. Günümüzdeki budama yaklaşımları, şu anda Meta’da çalışan bilgisayar bilimci Yann LeCun’un, eğitilmiş bir sinir ağındaki parametrelerin yüzde 90’ının verimlilikten ödün vermeden kaldırılabileceğini savunduğu 1989 tarihli bir makaleye dayanmaktadır . Bu yönteme “optimum beyin hasarı” adını vermiştir. Budama, araştırmacıların belirli bir görev veya ortam için küçük bir dil modelini ince ayarlamasına yardımcı olabilir.

Dil modellerinin yaptıkları şeyleri nasıl yaptıklarıyla ilgilenen araştırmacılar için daha küçük modeller, yeni fikirleri test etmek için ucuz bir yol sunar. Ayrıca büyük modellerden daha az parametreye sahip oldukları için, akıl yürütmeleri daha şeffaf olabilir. MIT-IBM Watson AI Lab’da araştırma bilimcisi olan Leshem Choshen , “Yeni bir model yapmak istiyorsanız, denemeler yapmanız gerekir” dedi. “Küçük modeller, araştırmacıların daha düşük risklerle deney yapmalarına olanak tanır.”

Sürekli artan parametreleriyle büyük, pahalı modeller, genelleştirilmiş sohbet robotları, görüntü oluşturucular ve ilaç keşfi gibi uygulamalar için yararlı olmaya devam edecektir . Ancak birçok kullanıcı için küçük, hedefli bir model de aynı şekilde işe yarayacak ve araştırmacıların eğitmesi ve oluşturması daha kolay olacaktır. Choshen, “Bu verimli modeller paradan, zamandan ve hesaplamadan tasarruf sağlayabilir” dedi.

REKLAM ALANI
Koozmo Medya, kelimelerin gücüne, görselin etkisine ve bilginin dönüştürücü niteliğine inanan bir dijital hikâye anlatıcısıdır. Haberden içeriğe, görselden stratejiye uzanan yolculuğunda, her satırda özgünlüğü, her projede derinliği önceler. Zamanın ruhunu yakalayan içerikler üretirken, okuruyla bağ kurmayı değil; iz bırakmayı hedefler. Koozmo Medya için medya yalnızca bir mecra değil, anlamı çoğaltan bir evrendir.
Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.