Veri Bilimci - Genel Sorular

Veri Bilimci 10 soru 06.04.2026
Bu sorular ve cevaplar genel bilgilendirme ve mülakat hazırlık amaçlıdır. Gerçek mülakat sorularını yansıtmaz.
1

Veri bilimi projelerinizde data cleaning ve preprocessing aşamasına ne kadar zaman ayırırsınız?

Projelerimin %60-70'i data cleaning ve preprocessing'e gider. Bu aşama en kritik adımdır: garbage in, garbage out prensibi. Missing value handling, outlier detection, feature scaling ve encoding yaparım. Pandas, NumPy ve Scikit-learn preprocessing tools kullanırım.
2

Machine learning model seçerken hangi kriterleri dikkate alırsınız?

1) Problem tipi (classification, regression, clustering), 2) Data boyutu ve yapısı, 3) Interpretability gereksinimi, 4) Training time ve computational resources, 5) Deployment constraints. Basitten başlarım (Linear Regression, Decision Tree) sonra complex modellere geçerim (Random Forest, XGBoost, Neural Networks).
3

Overfitting nasıl tespit edersiniz ve nasıl önlersiniz?

Tespit: Train-validation-test split, cross-validation, learning curves. Önleme: Regularization (L1/L2), dropout (neural networks), early stopping, data augmentation, feature selection, ensemble methods. Ayrıca baseline model ile comparison yaparım.
4

Feature engineering süreciniz nasıl çalışır?

1) Domain knowledge integration, 2) Exploratory data analysis, 3) Feature creation (transformation, interaction, polynomial), 4) Feature selection (correlation analysis, mutual information, feature importance), 5) Dimensionality reduction (PCA, t-SNE). Automated feature engineering tools da kullanırım (Featuretools).
5

Model performansını nasıl ölçersınız? Hangi metrics'leri kullanırsınız?

Classification: Accuracy, Precision, Recall, F1-score, ROC-AUC. Regression: MSE, RMSE, MAE, R². Unbalanced datasets için: Balanced Accuracy, Cohen's Kappa. Business metrics'lere de bakarım: cost-benefit analysis, expected value. Cross-validation ile robustness check ederim.
6

Big data teknolojileriyle çalışma deneyiminiz nedir?

Apache Spark (PySpark) için large-scale data processing, distributed computing. Hadoop ecosystem (HDFS, MapReduce). Streaming için Kafka, Spark Streaming. Cloud platforms: AWS EMR, Google Cloud Dataflow, Azure HDInsight. Data warehouse: Snowflake, BigQuery, Redshift.
7

Veri görselleştirme için hangi araçları kullanırsınız?

Exploratory analysis için: Matplotlib, Seaborn, Plotly. Interactive dashboards için: Tableau, Power BI, Streamlit, Dash. Custom visualizations için: D3.js (web). Best practice: Edward Tufte principles, colorblind-friendly palettes, minimal ink-to-data ratio.
8

A/B testing ve experimentation framework'ünüz nedir?

Hypothesis definition → Metric selection → Sample size calculation → Randomization → Experiment execution → Statistical analysis → Decision. Tools: Google Optimize, Optimizely, custom framework. Statistical tests: t-test, chi-square, Mann-Whitney. Multiple testing correction için Bonferroni veya FDR.
9

Communication: Teknik olmayan stakeholder'lara bulgularınızı nasıl sunarsınız?

Storytelling approach: 1) Business problem context, 2) Key insights (visualizations), 3) Recommendations (actionable), 4) Impact estimation. Jargon kullanmam, analogies ve real-world examples veririm. Dashboard'lar interactive ve self-explanatory olur.
10

Veri bilimi projelerinde karşılaştığınız en zor sorun neydi ve nasıl çözdünüz?

Bu soruya adayın gerçek deneyimini paylaşması beklenir. Örnek: "Müşteri kayıp tahmini projesinde veri dengesizliği sorunu yaşadım. Kayıp oranı sadece %%5 idi. SMOTE oversampling, cost-sensitive learning ve ensemble yöntemleri ile çözdüm. Sonuçta F1-score %%45'ten %%78'e çıktı ve şirkete 1M TL tasarruf sağladı."