post-training

Lightweight replication study of DeepSeek-R1-Zero. Interesting findings include "No Aha Moment", "Longer CoT ≠ Accuracy", and "Language Mixing in Instruct Models".

reinforcement-learning fine-tuning post-training llm deepseek gpt-o1 reasoning-language-models reasoning-models deepseek-r1

Updated Apr 1, 2025
Python

UIC-Liu-Lab / CPT

Star

[EMNLP 2022] Continual Training of Language Models for Few-Shot Learning

nlp natural-language-processing transformers language-modeling post-training continual-learning catastrophic-forgetting few-shot-learning

Updated Feb 13, 2023
Python

taco-group / Re-Align

Star

A novel alignment framework that leverages image retrieval to mitigate hallucinations in Vision Language Models.

alignment safety vlm post-training ppo hallucination dpo large-language-models llm rlhf mllm vision-language-model multimodal-large-language-models hallucination-mitigation

Updated Feb 19, 2025
Python

DolbyUUU / DeepEnlighten

Star

Pure RL to post-train base models for social reasoning capabilities. Lightweight replication of DeepSeek-R1-Zero with Social IQa dataset.

reinforcement-learning fine-tuning post-training llm deepseek gpt-o1 reasoning-language-models reasoning-models deepseek-r1

Updated Mar 16, 2025
Python

sastpg / RFTT

Star

RFTT: Reasoning with Reinforced Functional Token Tuning

reinforcement-learning tree-search reasoning post-training large-language-models

Updated Mar 21, 2025
Python

AstraZeneca / vlm

Star

Official implementation for "Diffusion Instruction Tuning"

post-training multimodal-alignment supervised-finetuning vision-language-model multimodal-large-language-models

Updated Feb 17, 2025

anish-bhattacharya / evfly

Star

Official repository for the paper "Monocular Event-Based Vision for Obstacle Avoidance with a Quadrotor" by Bhattacharya, et al. (2024) from GRASP, Penn & RPG, UZH.

robotics quadrotor post-training event-camera vision-transformer sim-to-real

Updated Mar 23, 2025
C++

sylvain-wei / 24-Game-Reasoning

Star

超简单复现Deepseek-R1-Zero和Deepseek-R1，以「24点游戏」为例。通过zero-RL、SFT以及SFT+RL，以激发LLM的自主验证反思能力。 About Clean, minimal, accessible reproduction of DeepSeek R1-Zero, DeepSeek R1

alignment reasoning r1 post-training cot sft o1 24game llm rlhf deepseek r1-zero verl long-cot

Updated Mar 3, 2025
Python

PurCL / ProSec

Star

Official repo for "ProSec: Fortifying Code LLMs with Proactive Security Alignment"

alignment code-generation post-training large-language-models code-language-model

Updated Mar 26, 2025

JiaQiSJTU / IterIT

Star

An Approach to Enhancing the Efficacy of Post-Training Using Synthetic Data by Iterative Data Selection

synthetic-data data-selection post-training instruction-tuning

Updated Dec 24, 2024
Python

JudePark96 / BERT-KorQuAD-Competition

Star

Machine Reading Comprehension Competition w/ Korean BERT Model

nlp korean bert korean-nlp machine-reading-comprehension post-training

Updated Aug 4, 2020
Python

tomMoral / Post_training

Star

Reproducible figures for "Post Training in Deep Learning"

deep-learning tensorflow-experiments reproducible-figures post-training

Updated Oct 27, 2017
Python

chunhuizng / mllm-video-captioner

Star

We use RL to train a SOTA MLLM captioner.

reinforcement-learning alignment image-captioning video-captioning post-training mllm multimodal-language-model

Updated Mar 7, 2025
Python

Sudoku4LLM is a Sudoku dataset generator for training and evaluating reasoning in Large Language Models (LLMs). It offers customizable puzzles, difficulty levels, and 11 serialization formats to support structured data reasoning and Chain of Thought (CoT) experiments.

reinforcement-learning fine-tuning post-training dataset-generator llm rl-for-finance reasoning-language-models reasoning-models deepseek-r1 rl-for-llm

Updated Mar 17, 2025
Python

naufalprakoso / PostTrainingAndroidPart4

Star

Post Training Android Part 4 for Software Laboratory Center 19-2 Binus University

android maps volley post-training bluejack

Updated Aug 11, 2019
Java

yshinya6 / clip-refine

Star

Code repository for "Post-pre-training for Modality Alignment in Vision-Language Foundation Models" (CVPR2025)

post-training multimodal vision-language-model modality-gap

Updated Mar 12, 2025

naufalprakoso / PostTrainingAndroidPart2

Star

Post Training Android Part 2 for Software Laboratory Center 19-2 Binus University

android fragment post-training bluejack

Updated Aug 11, 2019
Java

Improve this page

Add a description, image, and links to the post-training topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

post-training

Here are 22 public repositories matching this topic...

mbzuai-oryx / Awesome-LLM-Post-training

turningpoint-ai / VisualThinker-R1-Zero

yihedeng9 / rlhf-summary-notes

DolbyUUU / Logic-RL-Lite

UIC-Liu-Lab / CPT

taco-group / Re-Align

DolbyUUU / DeepEnlighten

sastpg / RFTT

AstraZeneca / vlm

anish-bhattacharya / evfly

sylvain-wei / 24-Game-Reasoning

PurCL / ProSec

JiaQiSJTU / IterIT

JudePark96 / BERT-KorQuAD-Competition

tomMoral / Post_training

chunhuizng / mllm-video-captioner

DolbyUUU / Sudoku4LLM

naufalprakoso / PostTrainingAndroidPart4

yshinya6 / clip-refine

naufalprakoso / PostTrainingAndroidPart2

Improve this page

Add this topic to your repo