📢 2024년 2/겨울학기 AIKU 활동으로 진행한 프로젝트입니다 🎉 2024년 2/겨울학기 AIKU Conference 열심히상 수상!
우리집 고양이도 메리 크리스마스!
기존 image editing 모델들의 한계점으로 지적되어 온 것 중 하나는 객체 간의 관계성입니다. 즉, 특정 객체만을 편집하거나 관계(두 객체의 위치, 크기 등)을 바꾸는 것에서 한계가 있었습니다. 이번 프로젝트에서는 강아지, 고양이 사진을 크리스마스 분위기로 바꾸는 image editing을 하며 다음 문제를 해결해보고자 합니다.
- 특정 객체를 추가하거나 수정하는 능력 높이기
- 다양성이 보장된 고품질의 image editing dataset 생성
GPT-3.5 turbo 모델을 활용하여 input으로 주어진 instruction 문장을 패러프레이징하여 다양한 instruction 문장 생성
위에서 생성한 instruction을 랜덤 샘플링하여 이에 맞는 edited image 생성, 이때 instruct pix2pix 모델을 사용하여 paired 데이터셋 생성 다양한 생성 결과를 위해 image guidance scale을 하나의 값으로 고정하지 않고 여러 값을 사용
생성된 이미지들을 manual-data-filtering을 통해 finetuning에 활용할 데이터를 선별
만들어진 데이터셋을 선별하여 삼중항 데이터셋 구축 및 허깅페이스 업로드(input_image, instruction, output_image)
diffusers에서 제공하는 train_instruct_pix2pix.py를 실행하여 further training 진행 1390개 pair row에 대해서, 총 8000 step 만큼 파인튜닝 진행
pwnhyo/instruct-pix2pix-model
conda create --name 5min python=3.9
conda actibate 5min
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
git clone https://github.com/huggingface/diffusers
cd diffusers
pip install .
cd examples/instruct_pix2pix
pip install -r requirements.txt
accelerate config (default)
sh train.sh
python inference.py