image-captioning

A multi-modal generative AI model that generates captions for images

Summary

Pretrained EfficientNet v2 Convolutional Neural Net backbone
Encoder/Decoder Transformer to translate CNN image features to text
Trained on the Common Objects in Context (COCO) dataset—check it out
Model based on End-to-End Transformer Based Model for Image Captioning

Project Organization

├── model              <- Model architecture
│     ├── blocks.py
│     ├── layers.py
│     ├── model.py
│
├── tokenizer          <- Custom tokenizer config
│     ├── ...
│
├── config.yaml        <- Model configuration and training setup
|
├── dataset.py         <- Functions and class for building dataset for model training
|
├── train.py           <- Model training
|
├── inference.py       <- Model inference/testing
│
├── requirements.txt   <- Requirements file for reproducing the model environment

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

image-captioning

Summary

Project Organization

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
model		model
resources		resources
tokenizer		tokenizer
.gitignore		.gitignore
README.md		README.md
config.yaml		config.yaml
dataset.py		dataset.py
inference.py		inference.py
requirements.txt		requirements.txt
train.py		train.py

markbotros1/image-captioning

Folders and files

Latest commit

History

Repository files navigation

image-captioning

Summary

Project Organization

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages