diff --git a/mlflow.md b/mlflow.md index a5c4c65..6f68991 100644 --- a/mlflow.md +++ b/mlflow.md @@ -191,6 +191,8 @@ mlflow models serve -m ./mlartifacts/599912536112484580/4b19152236224ce08ef46ffd - local nvme 와 같은 빠른 디바이스도 용량이 2gb 정도되면 발생 - 기본 timeout 을 몰라서 이해는 안되나 설정시 해결 + https://github.com/deptno/cluster-amd64/commit/be5d95b182681ecaaa1f7248b4b7c471e874ec57 +- [[optuna]] `hyperparameter_search` 와 충돌 + + [[optuna#hyperparameter_search]] ## link - [[python]] diff --git a/optuna.md b/optuna.md index 6450355..d5273e0 100644 --- a/optuna.md +++ b/optuna.md @@ -2,6 +2,7 @@ - hyper-parameter tuner ## [[error]] +### hyperparameter_search :hyperparameter_search: - `hyperparameter_search` 에러 - hyperparameter_search 시에는 `model_init` 을 통해서 새로운 모델을 새롭게 생성한다 - 이 과정에서 tokenizer 가 special token 등을 추가함으로 인해서 vocab size 가 달라지면 아래와 같은 알기 어려운 에러가 발생한다 @@ -128,7 +129,6 @@ Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions. [W 2024-11-28 16:25:27,017] Trial 0 failed with value None. Traceback (most recent call last): - File "/data/ephemeral/home/src/model_t5/model.py", line 270, in best_params = trainer.hyperparameter_search( File "/opt/conda/lib/python3.10/site-packages/transformers/trainer.py", line 3473, in hyperparameter_search best_run = backend_obj.run(self, n_trials, direction, **kwargs) @@ -189,6 +189,63 @@ CUDA kernel errors might be asynchronously reported at some other API call, so t For debugging consider passing CUDA_LAUNCH_BLOCKING=1. Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions. ``` +- `hyperparameter_search` 시에는 callback 을 꺼야한다, `EarlyStoppingCallback` 같은 경우도 저장 루틴과 관계까 있다 아닐 시 아래와 같은 오류 +```sh +Downloading artifacts: 0%|| 0/1 [00:00