A/B Testi Nasıl Yapılır

Minimum Örnek Büyüklüğü Hesabı

Testi başlatmadan önce kaç kullanıcıya ihtiyacın olduğunu hesapla; sonradan bak mantığıyla hareket edersen yanlış kararlar alırsın. Temel formül σ tabanlı olmakla birlikte pratikte şu kestirimi kullanabilirsin: %5 baseline dönüşüm oranında %20 göreli artışı tespit etmek için her kol için yaklaşık 3.800 kullanıcıya ihtiyacın var. Bu rakam power %80, α = 0,05 ve iki kuyruklu test varsayımıyla hesaplanmıştır. Baseline dönüşüm oranın daha düşükse ya da tespit etmek istediğin etki daha küçükse gereken kullanıcı sayısı katlanarak artar.

Örnek büyüklüğü hesabı için Evan Miller'ın ücretsiz online araçları veya statsig.com'un sample size calculator'ı birkaç parametreyi girerek sonucu saniyeler içinde verir. Testi başlatmadan önce bu hesabı yap ve günlük trafik rakamına bölerek kaç gün test çalıştıracağını belirle. İki haftalık bir test dönemi genellikle haftalık sezonalite etkisini dengelemek için minimum süre olarak kabul edilir.

İstatistiksel Anlamlılık

p < 0,05 eşiği, test sonucunun rastlantıdan kaynaklanma olasılığının %5'in altında olduğunu söyler; bu %95 güven aralığına karşılık gelir. Tek kuyruklu test yerine iki kuyruklu test kullan çünkü varyantın kontrol grubundan hem pozitif hem negatif etkilendiğini bilmek istiyorsun. Tek kuyruklu test p değerini yapay olarak küçük gösterir ve yanlış pozitif riskini artırır.

En yaygın A/B test hatası "peeking problem"dir: istatistiksel anlam çıktığı anda testi durdurmak. Sonuçlara her baktığında yanlış pozitif olasılığı artar çünkü varyans henüz stabilleşmemiş olabilir. Doğru yaklaşım şudur: testi başlatmadan önce kaç kullanıcıya ulaşınca bakacağını belirle, o noktaya gelinceye kadar tabloya bakma. Bu disiplini korumak zordur ama geçersiz kararların maliyeti çok daha yüksektir.

Hangi Metriği Test Etmeli

Her testte tek bir primary metric tanımla ve bunu önceden dokümana yaz. CTA rengi ve metnini aynı anda değiştirirsen, dönüşüm oranı değiştiğinde hangi değişkenden kaynaklandığını söyleyemezsin. "Tek değişken kuralı" olarak bilinen bu prensip, testin yorumlanabilirliğini korumak için zorunludur.

Hangi metriği seçeceğin ürün aşamasına bağlıdır. Kayıt akışını test ediyorsan primary metric "signup completion rate", ödeme sayfasını test ediyorsan "purchase conversion rate" olmalıdır. Sayfa görüntüleme veya tıklama oranı gibi vanity metrikler test kazananı yanıltabilir; mutlaka gerçek iş değeriyle ilişkili bir metrik seç. Secondary metric olarak bir guardrail belirle — kazanan variant'ın başka bir kritik metriği bozmadığını doğrulamak için.

Araç Karşılaştırması

Optimizely kurumsal A/B test araçlarının öncüsüdür; fiyatlandırması şeffaf değil ve genellikle büyük ekipler için uygundur. VWO $199/ay'dan başlayan bir planla orta ölçekli ürün ekipleri için dengeli bir seçenek sunar; ısı haritası ve oturum kaydı gibi tamamlayıcı araçları da paketine dahildir. PostHog açık kaynaklı ve self-hosted versiyonu tamamen ücretsizdir; feature flag altyapısıyla A/B testi, event tracking ve session recording tek platformda birleşir.

Erken aşama bir startup için PostHog'u self-hosted olarak başlatmak mantıklıdır: maliyetsizdir ve tüm veri kendi sunucunda kalır. Ekip büyüdükçe ve test sayısı arttıkça yönetilen bir platforma geçiş değerlendirilebilir. Hangi aracı seçersen seç, kazanan ilan etme kriterini önceden belirle: önceden hesaplanan örnek büyüklüğüne ulaşmadan, p < 0,05 eşiğini aşmadan kazanan ilan etme.

Sık Sorulan Sorular

A/B testi ne kadar süre çalıştırılmalı? Minimum önceden hesaplanan örnek büyüklüğüne ulaşana kadar çalıştır. Pratik kural olarak en az iki tam hafta bekle; bu süre haftalık sezonalite etkisini (hafta içi vs hafta sonu davranış farkı) dengelemenizi sağlar.

Peeking problem neden bu kadar kritik? Her ara bakışta yanlış pozitif riskini artırırsın. Bir simülasyonda 100 geçersiz teste bakıldığında, erken durdurma yapılanların %30'unun p < 0,05 gösterdiği bulunmuştur. Önceden belirlenen örnek büyüklüğüne ulaşmadan karar vermek kurumsal verimlilik yanılsaması yaratır.

A/A testi ne işe yarar? Aynı varyantı iki kola bölerek test edersin; sonuçlar istatistiksel anlam gösterirse araçta veya ölçümde bir hata var demektir. Her yeni test aracını devreye almadan önce bir A/A testi çalıştırmak araç güvenilirliğini doğrulamanın en pratik yoludur.

Küçük trafik hacmiyle A/B testi yapılabilir mi? Günlük 100 ziyaretçiyle anlamlı sonuç almak için aylarca beklemeniz gerekebilir. Bu durumda odağı daha az değişkene çek, etki büyüklüğü daha yüksek değişiklikleri test et (örneğin fiyatlandırma sayfası düzeni) ya da niteliksel yöntemlere (kullanıcı mülakatı, ısı haritası) öncelik ver.

Birden fazla varyant test edilebilir mi? Evet, bu çok kollu testler (multivariate) olarak adlandırılır; ancak her kol eklendiğinde gerekli toplam örnek büyüklüğü artar. İki varyant için 7.600 kullanıcı gerekiyorsa üç varyant 11.400 gerektirir. Trafik yeterliyse çalışır; yetersizse iki kollu testlere odaklan.