优化

December 9, 2021 · View on GitHub

利用tensorboard，可以看到eval worker(默认 worker1)对于评估集上，各个save_checkpoints_steps上的表现。方法：

将events文件下载到本地（events文件在model_dir/eval_val/ 路径下）
本地使用tensorboard命令打开events文件（注：events_file_path不能指定events文件，需指定到events文件的父目录）
```
tensorboard --logdir=events_file_path
```

tensorboard

可以先设置个较大值，如5w，然后利用tensorboard观察收敛效果。若1w步时一收敛到最优，则调整num_steps到1w-2w。

在训练模型前, 对训练数据先进行打散(shuffle)，往往能得到更高的指标，训练过程也更稳定。（注：只需shuffle训练表，无需shuffle评估表）

create table train_table_shuffled
as
select * from train_table
DISTRIBUTE by rand();

将指定特征共享embedding空间，达到节省参数空间，加快收敛，防止过拟合。

共享 embedding 的 feature_config 中，embedding_dim，hash_bucket_size，embedding_name等参数要保证一致。

过拟合： overfit

做法：

欠拟合：

做法：

学习缓慢：

做法：

具体参考：pai-hpo调参

主要调参项：

hpo

export_config {
  exporter_type: "best"
  exports_to_keep: 1
  best_exporter_metric: "auc"
}