Yapay Zeka 101: Basitçe Anlamak İsteyenler için Bir Rehber

Reading Time: 3 minutes

Hepimiz bir yapay zeka modeliyle sohbet ederken onun nasıl cevap ürettiğini merak etmişizdir. O halde gelin, yapay zeka modellerinin tam olarak nasıl çalıştıklarını basitçe gözden geçirelim.

Dil Modellerinin Büyülü Dünyasına Kısa Bir Yolculuk

Kısaca: Dil modeli (LLM), metni parça parça tamamlayarak yeni cümleler üreten bir sistemdir.
Bu modellerin çoğu, Google’ın efsanevi makalesi “Attention is All You Need” ile tanıtılan Transformer mimarisine dayanır.

Model, gördüğü metin üzerinden bir sonraki kelimenin ne olabileceğini olasılıklarla tahmin eder.
Biz sadece düzgün bir yazı akışı görürüz ama aslında her kelime seçimi, milyonlarca olasılıktan yapılan bir seçimdir.

Token Nedir?

Dil modelleri kelimelerle değil, token denilen küçük karakter gruplarıyla çalışır.
Örneğin:

“Bülent” ve boşluk genelde bir token olabilir.
“Supercalifragilisticexpialidocious” gibi uzun bir kelime ise birkaç token’a bölünür.

Her token bir sayıya dönüştürülür. Model, bu sayıların arasındaki ilişkileri öğrenerek dilin istatistiksel yapısını keşfeder.
Bu yüzden “Peace on” yazarsan model, “Earth” (veya bazen “Mars”) tahmin edebilir — tamamen olasılıklarla.

Yapay Zeka (Ai) için Metin Nasıl Oluşuyor?

Modelin yaptığı şey, her token arasında ilişki ağları kurmak.
Örneğin “There’s a bug, smash it!” cümlesinde model, “bug” ve “it” kelimelerinin aynı nesneyi anlattığını fark eder.

Matematiksel olarak model, her kelimeyi (query) diğer tüm kelimelere (key) göre değerlendirir ve bu ilişkiden value denilen sonuçlar üretir.
Bu işlemler katman katman yapılır — her katmanda tahminler biraz daha keskinleşir.

Milyarlarca Beyin Hücresi Gibi

Bir yapay zeka modelinin boyutu, örneğin 7B (7 milyar) veya 70B (70 milyar) olarak belirtilir.
Bu, modeldeki parametre (nöron) sayısını gösterir.
Parametre sayısı arttıkça modelin anlama gücü, nüansı ve “karakteri” artar.

KV Cache ve Tahmin Süreci

Metin üretirken model iki şey yapar:

Geçmiş tüm sohbeti analiz eder (buna context processing denir).
Yeni kelimeleri üretir (buna inference denir).

İlk aşama ağırdır ama sonuçlar KV cache adı verilen bir belleğe kaydedilir.
Bu sayede her yeni cümle üretilirken tüm geçmişi baştan hesaplamak gerekmez — model sadece yeni token’ı tahmin eder.

Temel (Base) Modellerin Doğuşu

Bir dil modeli, ilk olarak milyarlarca metinle ön eğitim (pre-training) sürecinden geçer.
Bu süreç haftalar sürer, binlerce GPU kullanılır.
Ortaya çıkan yapay zeka modeli yalnızca “metni tamamlama” yeteneğine sahiptir — henüz “sohbet” edemez.

Buna base model denir.
Örnekler:

Meta → LLaMA
Microsoft → Phi
Mistral → Mistral 7B
Alibaba → Qwen
Cohere → Command-R

Bazı yapay zeka modelleri devasa veriyle eğitilir (LLaMA), bazıları az ama kaliteli veriyi tercih eder (Phi – “Textbooks Are All You Need”).

Token Sözlüğü ve Bağlam Uzunluğu

Modelin anlayabildiği metin miktarına context window denir.
LLaMA serisi örneğin 2.048 → 4.096 → 8.192 token’a kadar gelişmiştir.
Bağlam ne kadar uzun olursa, sohbet geçmişini o kadar iyi hatırlar.

Ayrıca her modelin bir token sözlüğü (vocabulary) vardır.
LLaMA 2’nin 32.000 token’lık sözlüğü varken, LLaMA 3’te bu 128.000’e çıkmıştır.
Böylece model daha az token’la aynı metni temsil edebilir — yani daha hızlı ve verimli olur.

Instruct (Chat) Tuning: Sohbeti Öğretmek

Temel yapay zeka modeli yalnızca metin tamamlar; ona nasıl konuşacağını öğretmek gerekir.
Bu ek eğitim sürecine instruct tuning denir.

Burada model, “kullanıcı → asistan” biçiminde etiketlenmiş sohbet verileriyle eğitilir.
Böylece:

“Soru sorulduğunda cevap ver”
“Nezaketli ol”
“Kod bloklarını doğru biçimlendir”
gibi davranışları öğrenir.

Fine-Tuning: Modele Kişilik Kazandırmak

Fine-tuning, bir modeli özel bir amaç için yeniden eğitme sürecidir.
Örneğin:

Tıbbi danışman modeli
Rol yapma (roleplay) modeli
Şiir yazan model

Bu işlem artık bireysel geliştiriciler için bile yapılabilir.
Yalnızca doğru veri, birkaç yüz dolarlık GPU gücü ve sabır gerekir.
Hedef, modelin cevabını istenen biçim ve tonda vermesini sağlamaktır.

Model Birleştirme (Model Merging)

Bu kısım tam bir sanat.
İki ya da daha fazla modeli birleştirerek hem zekâsını hem tarzını birleştirebilirsin.

Örneğin:

Bir “akademik” model
Bir “hikâye anlatıcı” model
Bir “mizahi” model

Bu üçü birleşirse: eğlenceli ama bilgili bir yazar elde edersin.
Birleştirme yöntemleri arasında Linear, TIES, DARE, SLERP gibi teknikler bulunur.
Her biri farklı matematiksel yollarla model katmanlarını harmanlar.

Model birleştirme hâlâ keşif aşamasında.
Araştırmacılar, parametreleri farklı oranlarda “karıştırarak” en uyumlu sonuçları bulmaya çalışıyor.
Yani bu alan tam anlamıyla bilimle sanatın kesiştiği yer .

Yapay Zeka Hakkında Daha Fazla Öğrenmek İçin

Merak edenler için birkaç anahtar terim:

Transformer architecture
“Attention is All You Need”
Query / Key / Value
Self-Attention
KV Cache
Tokenization

Son Söz

Bir yapay zeka modeliyle konuştuğunda, aslında milyarlarca sayı arasındaki ilişkilerin dansını izliyorsun.
Bu modeller sadece “tahmin” etmiyor — dili, bağlamı ve düşünceyi istatistiksel bir sanat haline getiriyor.

Ve en güzeli, bu hikâye hâlâ yazılmaya devam ediyor.

Bu yazıyı beğendiyseniz ya da beni sosyal medyadan da takip etmek isterseniz

Twitter: @sadegazoz (Tr) & @bulentongun (En)

Linkedin: https://linkedin.com/in/bulentongun/

tevfik bülent öngün

Yapay Zeka 101: Basitçe Anlamak İsteyenler için Kısa Bir Rehber5 min read