1 IDTDF调参

提取特征，参数调优IFTDF参数调优
ngram_range=(1,3), max_features=3000
参考资料

list_ngram = [1,2,3,4]
list_feature = [1000,3000,5000]
#分数记录字典
score_dict = {"list_n":[],"list_f":[],"score":[]}
#创建方法进行验证
def para_Tdf(data_x):
    for n in list_ngram:
        for fea in list_feature:
            Tdf = TfidfVectorizer(ngram_range=(1,n),max_features=fea)
            tdf_data = Tdf.fit_transform(data_x)
            Ridge_clf2 =Ridge_clf.fit(tdf_data[:10000],data['label'][:10000])
            pred_y = Ridge_clf2.predict(tdf_data[10000:20000])
            score2 = f1_score(data['label'][10000:20000],pred_y,average="macro")
            score_dict["list_n"].append(n)
            score_dict['list_f'].append(fea)
            score_dict['score'].append(score2)
#方法调用
para_Tdf(data['text'][:20000])
#以DataFrame形式显示分数
score_df = pd.DataFrame(score_dict)

2 提取textlen数值特征

3 模型调参

3.1 XGB

label= np.array(pd.read_csv('./data/label.csv'))
train = pd.read_csv('./temp/train.csv',header = None,names=['id','text','label'])
def adjust_model():
    Tdf = TfidfVectorizer(ngram_range=(1,2),max_features=500)
    tdf_data = Tdf.fit_transform(train['text'])
    X_train,X_test,y_train,y_test = train_test_split(tdf_data,label,test_size=0.3)
    paralist = []
    score_dict = {"list_n":[],"list_f":[],"loss":[]}
    # for n in paralist
    param_test1 = {'estimator__max_depth':range(9,13,2)}
    model = OneVsRestClassifier(XGBClassifier(eval_metric= 'mlogloss',
                                            max_depth = 11,
                                            min_child_weight =1,
                                            use_label_encoder=False,
                                            min_child_weight =1,
                                            learning_rate =0.1,
                                            n_estimators=100,
                                            gamma=0,
                                            subsample=0.8,
                                            colsample_bytree=0.8,
                                            nthread=4,
                                            scale_pos_weight=1,
                                            seed=27,
                                            verbose=True))
    gsearch1 = GridSearchCV(model,param_grid = param_test1,scoring='roc_auc',n_jobs=20, cv=5,verbose=2)
    gsearch1.fit(X_train, y_train)
    print("参数\n",gsearch1.best_params_)
    print("最佳得分",gsearch1.best_score_)
    print()
adjust_model()
    clf1 = OneVsRestClassifier(XGBClassifier(eval_metric= 'mlogloss',
                                            max_depth = 11,
                                            min_child_weight =1,
                                            n_estimators=150,
                                            use_label_encoder=False,
                                            learning_rate =0.01,  
                                            gamma=0,
                                            subsample=0.8,
                                            colsample_bytree=0.8,
                                            nthread=10,
                                            scale_pos_weight=1,
                                            seed=27,
                                            ))

max_depth = 11    range(3,10,2),
 min_child_weight = 1   range(2,13,2)
range(1,6,2)
learning_rate =0.01,  
 n_estimators=5000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,