[mieb] Fill in clip and open clip model meta (#1876)

* add clip and open clip model meta * fix training_datasets
embeddings-benchmark · Jan 26, 2025 · 6ca11d2 · 6ca11d2
1 parent b9fe9f0
commit 6ca11d2
Show file tree

Hide file tree

Showing 2 changed files with 114 additions and 98 deletions.
diff --git a/mteb/models/clip_models.py b/mteb/models/clip_models.py
@@ -147,17 +147,17 @@ def get_fused_embeddings(
     revision="32bd64288804d66eefd0ccbe215aa642df71cc41",
     release_date="2021-02-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
+    n_parameters=428_000_000,
+    max_tokens=77,
+    embed_dim=768,
     license=None,
-    open_weights=None,
+    open_weights=True,
     public_training_code=None,
     public_training_data=None,
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/openai/clip-vit-large-patch14",
     similarity_fn_name=None,
-    use_instructions=None,
+    use_instructions=False,
     training_datasets=None,
 )
 
@@ -171,17 +171,17 @@ def get_fused_embeddings(
     revision="3d74acf9a28c67741b2f4f2ea7635f0aaf6f0268",
     release_date="2021-02-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
+    n_parameters=151_000_000,
+    max_tokens=77,
+    embed_dim=512,
     license=None,
-    open_weights=None,
+    open_weights=True,
     public_training_code=None,
     public_training_data=None,
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/openai/clip-vit-base-patch32",
     similarity_fn_name=None,
-    use_instructions=None,
+    use_instructions=False,
     training_datasets=None,
 )
 
@@ -195,17 +195,17 @@ def get_fused_embeddings(
     revision="57c216476eefef5ab752ec549e440a49ae4ae5f3",
     release_date="2021-02-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
+    n_parameters=151_000_000,
+    max_tokens=77,
+    embed_dim=512,
     license=None,
-    open_weights=None,
+    open_weights=True,
     public_training_code=None,
     public_training_data=None,
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/openai/clip-vit-base-patch16",
     similarity_fn_name=None,
-    use_instructions=None,
+    use_instructions=False,
     training_datasets=None,
 )
 

diff --git a/mteb/models/openclip_models.py b/mteb/models/openclip_models.py
@@ -160,18 +160,20 @@ def get_fused_embeddings(
     revision="84c9828e63dc9a9351d1fe637c346d4c1c4db341",
     release_date="2023-04-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=428_000_000,
+    max_tokens=77,
+    embed_dim=768,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://huggingface.co/datasets/mlfoundations/datacomp_1b",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # DataComp-1B
+    },
 )
 
 CLIP_ViT_B_32_DataComp_XL_s13B_b90K = ModelMeta(
@@ -184,18 +186,20 @@ def get_fused_embeddings(
     revision="f0e2ffa09cbadab3db6a261ec1ec56407ce42912",
     release_date="2023-04-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=151_000_000,
+    max_tokens=77,
+    embed_dim=512,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://huggingface.co/datasets/mlfoundations/datacomp_1b",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-B-32-DataComp.XL-s13B-b90K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # DataComp-1B
+    },
 )
 
 CLIP_ViT_B_16_DataComp_XL_s13B_b90K = ModelMeta(
@@ -208,18 +212,20 @@ def get_fused_embeddings(
     revision="d110532e8d4ff91c574ee60a342323f28468b287",
     release_date="2023-04-26",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=150_000_000,
+    max_tokens=77,
+    embed_dim=512,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://huggingface.co/datasets/mlfoundations/datacomp_1b",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-B-16-DataComp.XL-s13B-b90K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # DataComp-1B
+    },
 )
 
 CLIP_ViT_bigG_14_laion2B_39B_b160k = ModelMeta(
@@ -232,18 +238,20 @@ def get_fused_embeddings(
     revision="bc7788f151930d91b58474715fdce5524ad9a189",
     release_date="2023-01-23",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=2_540_000_000,
+    max_tokens=77,
+    embed_dim=1280,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://laion.ai/blog/laion-5b/",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # 2 Billion sample English subset of LAION-5B
+    },
 )
 
 CLIP_ViT_g_14_laion2B_s34B_b88K = ModelMeta(
@@ -256,18 +264,20 @@ def get_fused_embeddings(
     revision="15efd0f6ac0c40c0f9da7becca03c974d7012604",
     release_date="2023-03-06",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=1_367_000_000,
+    max_tokens=77,
+    embed_dim=1024,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://laion.ai/blog/laion-5b/",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-g-14-laion2B-s34B-b88K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # 2 Billion sample English subset of LAION-5B
+    },
 )
 
 CLIP_ViT_H_14_laion2B_s32B_b79K = ModelMeta(
@@ -280,18 +290,20 @@ def get_fused_embeddings(
     revision="de081ac0a0ca8dc9d1533eed1ae884bb8ae1404b",
     release_date="2022-09-15",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=986_000_000,
+    max_tokens=77,
+    embed_dim=1024,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://laion.ai/blog/laion-5b/",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # 2 Billion sample English subset of LAION-5B
+    },
 )
 
 CLIP_ViT_L_14_laion2B_s32B_b82K = ModelMeta(
@@ -304,18 +316,20 @@ def get_fused_embeddings(
     revision="1627032197142fbe2a7cfec626f4ced3ae60d07a",
     release_date="2022-09-15",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=428_000_000,
+    max_tokens=77,
+    embed_dim=768,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://laion.ai/blog/laion-5b/",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-L-14-laion2B-s32B-b82K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # 2 Billion sample English subset of LAION-5B
+    },
 )
 
 CLIP_ViT_B_32_laion2B_s34B_b79K = ModelMeta(
@@ -328,16 +342,18 @@ def get_fused_embeddings(
     revision="08f73555f1b2fb7c82058aebbd492887a94968ef",
     release_date="2022-09-15",
     modalities=["image", "text"],
-    n_parameters=None,
-    max_tokens=None,
-    embed_dim=None,
-    license=None,
-    open_weights=None,
-    public_training_code=None,
-    public_training_data=None,
+    n_parameters=151_000_000,
+    max_tokens=77,
+    embed_dim=512,
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/mlfoundations/open_clip",
+    public_training_data="https://laion.ai/blog/laion-5b/",
     framework=["PyTorch"],
-    reference=None,
+    reference="https://huggingface.co/laion/CLIP-ViT-B-32-laion2B-s34B-b79K",
     similarity_fn_name=None,
-    use_instructions=None,
-    training_datasets=None,
+    use_instructions=False,
+    training_datasets={
+        # 2 Billion sample English subset of LAION-5B
+    },
 )