Question 1

Veri bilimi projelerinizde data cleaning ve preprocessing aşamasına ne kadar zaman ayırırsınız?

Accepted Answer

Projelerimin %60-70'i data cleaning ve preprocessing'e gider. Bu aşama en kritik adımdır: garbage in, garbage out prensibi. Missing value handling, outlier detection, feature scaling ve encoding yaparım. Pandas, NumPy ve Scikit-learn preprocessing tools kullanırım.

Question 2

Machine learning model seçerken hangi kriterleri dikkate alırsınız?

Accepted Answer

1) Problem tipi (classification, regression, clustering), 2) Data boyutu ve yapısı, 3) Interpretability gereksinimi, 4) Training time ve computational resources, 5) Deployment constraints. Basitten başlarım (Linear Regression, Decision Tree) sonra complex modellere geçerim (Random Forest, XGBoost, Neural Networks).

Question 3

Overfitting nasıl tespit edersiniz ve nasıl önlersiniz?

Accepted Answer

Tespit: Train-validation-test split, cross-validation, learning curves. Önleme: Regularization (L1/L2), dropout (neural networks), early stopping, data augmentation, feature selection, ensemble methods. Ayrıca baseline model ile comparison yaparım.

Question 4

Feature engineering süreciniz nasıl çalışır?

Accepted Answer

1) Domain knowledge integration, 2) Exploratory data analysis, 3) Feature creation (transformation, interaction, polynomial), 4) Feature selection (correlation analysis, mutual information, feature importance), 5) Dimensionality reduction (PCA, t-SNE). Automated feature engineering tools da kullanırım (Featuretools).

Question 5

Model performansını nasıl ölçersınız? Hangi metrics'leri kullanırsınız?

Accepted Answer

Classification: Accuracy, Precision, Recall, F1-score, ROC-AUC. Regression: MSE, RMSE, MAE, R². Unbalanced datasets için: Balanced Accuracy, Cohen's Kappa. Business metrics'lere de bakarım: cost-benefit analysis, expected value. Cross-validation ile robustness check ederim.

Question 6

Big data teknolojileriyle çalışma deneyiminiz nedir?

Accepted Answer

Apache Spark (PySpark) için large-scale data processing, distributed computing. Hadoop ecosystem (HDFS, MapReduce). Streaming için Kafka, Spark Streaming. Cloud platforms: AWS EMR, Google Cloud Dataflow, Azure HDInsight. Data warehouse: Snowflake, BigQuery, Redshift.

Question 7

Veri görselleştirme için hangi araçları kullanırsınız?

Accepted Answer

Exploratory analysis için: Matplotlib, Seaborn, Plotly. Interactive dashboards için: Tableau, Power BI, Streamlit, Dash. Custom visualizations için: D3.js (web). Best practice: Edward Tufte principles, colorblind-friendly palettes, minimal ink-to-data ratio.

Question 8

A/B testing ve experimentation framework'ünüz nedir?

Accepted Answer

Hypothesis definition → Metric selection → Sample size calculation → Randomization → Experiment execution → Statistical analysis → Decision. Tools: Google Optimize, Optimizely, custom framework. Statistical tests: t-test, chi-square, Mann-Whitney. Multiple testing correction için Bonferroni veya FDR.

Question 9

Communication: Teknik olmayan stakeholder'lara bulgularınızı nasıl sunarsınız?

Accepted Answer

Storytelling approach: 1) Business problem context, 2) Key insights (visualizations), 3) Recommendations (actionable), 4) Impact estimation. Jargon kullanmam, analogies ve real-world examples veririm. Dashboard'lar interactive ve self-explanatory olur.

Question 10

Veri bilimi projelerinde karşılaştığınız en zor sorun neydi ve nasıl çözdünüz?

Accepted Answer

Bu soruya adayın gerçek deneyimini paylaşması beklenir. Örnek: "Müşteri kayıp tahmini projesinde veri dengesizliği sorunu yaşadım. Kayıp oranı sadece %%5 idi. SMOTE oversampling, cost-sensitive learning ve ensemble yöntemleri ile çözdüm. Sonuçta F1-score %%45'ten %%78'e çıktı ve şirkete 1M TL tasarruf sağladı."

Veri Bilimci - Genel Sorular