Veri Bilimci - Teknik Sorular

Veri Bilimci 10 soru 06.04.2026
Bu sorular ve cevaplar genel bilgilendirme ve mülakat hazırlık amaçlıdır. Gerçek mülakat sorularını yansıtmaz.
1

Gradient descent variasyonları arasındaki farklar nelerdir? SGD, Adam, RMSprop ne zaman kullanılır?

Batch GD: Tüm dataset kullanır, stable ama slow. SGD: Single sample, fast ama volatile. Mini-batch: Middle ground. Adam: Adaptive learning rate, general purpose. RMSprop: RNN için iyi. Momentum ve learning rate scheduling de kullanırım. Convergence diagnostics ile monitor ederim.
2

Neural network architecture tasarımı nasıl yaparsınız? Hyperparameter tuning stratejileriniz?

Basitten başlarım: 1-2 hidden layers, ReLU activation. Overfitting varsa: regularization, dropout, batch normalization. Hyperparameter tuning: Grid search, random search, Bayesian optimization (Optuna). Automated ML tools da kullanırım (AutoKeras, H2O.ai).
3

Time series forecasting için hangi modelleri kullanırsınız?

Classical: ARIMA, SARIMA, Exponential Smoothing. Machine learning: Random Forest, XGBoost with lag features. Deep learning: LSTM, GRU, Transformer-based models. Facebook Prophet için quick forecasts. Ensemble approach: Baseline methods + ML methods combine ederim.
4

Natural Language Processing projelerinizde hangi teknikler kullanırsınız?

Preprocessing: Tokenization, lemmatization, stopword removal. Traditional: TF-IDF, Bag-of-Words. Modern: Word embeddings (Word2Vec, GloVe), Transformer models (BERT, GPT). Tasks: Text classification, named entity recognition, sentiment analysis. Tools: spaCy, NLTK, Hugging Face Transformers.
5

Unsupervised learning'de hangi algoritmaları kullanırsınız? Cluster validation nasıl yaparsınız?

Clustering: K-means, hierarchical clustering, DBSCAN. Dimensionality reduction: PCA, t-SNE, UMAP. Association rules: Apriori. Validation: Silhouette score, Davies-Bouldin index, elbow method, domain expert evaluation. A/B testing ile business impact ölçerim.
6

Feature importance interpretation için hangi yöntemleri kullanırsınız?

Linear models: Coefficients. Tree-based: Feature importance scores. Model-agnostic: SHAP values, LIME, permutation importance. Partial dependence plots. Explainable AI için: LIME, SHAP, ELI5. Business communication için SHAP summary plots kullanırım.
7

Model deployment pipeline'ınız nasıl çalışır?

Workflow: Model training → Serialization (joblib, pickle) → Containerization (Docker) → API deployment (Flask, FastAPI) → Monitoring. MLOps tools: MLflow, Kubeflow, SageMaker. Monitoring: Model drift, data drift, prediction latency. Automated retraining pipeline setup ederim.
8

SQL ve database knowledge seviyeniz nedir?

Advanced SQL knowledge: Window functions, CTEs, complex joins, subqueries. Optimization: Query execution plans, indexing strategies. Databases: PostgreSQL, MySQL, NoSQL (MongoDB, Cassandra). Data warehousing: Snowflake, BigQuery, Redshift. SQL for feature extraction ve model serving de kullanırım.
9

Version control ve reproducibility için nasıl bir çalışma ortamı kullanırsınız?

Git for version control (GitFlow workflow). Experiment tracking: MLflow, Weights & Biases. Environment reproducibility: Docker, Conda environments. Literate programming: Jupyter notebooks → Python scripts conversion. Documentation: README, docstrings, Markdown reports.
10

Ensemble methods kullanım deneyiminiz nedir? Bagging vs Boosting?

Bagging: Random Forest, parallel training, reduces variance. Boosting: XGBoost, LightGBM, sequential training, reduces bias. Stacking: Multiple models combine ederim. Ensemble selection için cross-validation performance kullanırım. Winner takes all vs weighted average karar veririm.