問,如果我現在有個 imbalance dataset 要做 oversampling,同時需要做 data preprocessing (例如原本只有一個日期,我要額外加上一個 column 判斷他是不是週末)
我應該先做 preprocessing 還是先做 oversampling
如果先做 preprocessing,我擔心會出現一個日期在 oversampling 之後被移動到非週末,可是週末的 attribute 仍然為 true
如果先做 oversampling,假設是不是在週末是個很重要的 feature,則好像又會出現被移動到週末但 label 仍然為真,於是就創造了誤導性的 data