1
Gradient descent variasyonları arasındaki farklar nelerdir? SGD, Adam, RMSprop ne zaman kullanılır?
Batch GD: Tüm dataset kullanır, stable ama slow. SGD: Single sample, fast ama volatile. Mini-batch: Middle ground. Adam: Adaptive learning rate, general purpose. RMSprop: RNN için iyi. Momentum ve learning rate scheduling de kullanırım. Convergence diagnostics ile monitor ederim.