Mengqi Huang

University of Science and Technology of China

Email: huangmq [AT] ustc.edu.cn

My research interests include deep generative models, image/video/3D generation, and unified multimodal models. I am the recipient of the Best Student Paper Award at ACM Multimedia 2022 as the first author. In 2025, I was awarded the First Prize of the Natural Science Award from the China Society of Image and Graphics (CSIG) and the Special Prize of the President Scholarship of the Chinese Academy of Sciences (CAS). I have also received funding from the First National Natural Science Foundation of China for Youth Student Fundamental Research (Ph.D. student). I was selected for top industry talent programs including the Alibaba, ByteDance, etc.

研究方向为图像、视频、3D内容生成和多模态统一模型。博士期间以第一作者获CCF-A类国际会议ACM Multimedia 2022最佳学生论文奖。获2025年中国图像图形学会自然科学一等奖; 获批首届国家自然科学基金青年学生基础研究项目(博士研究生)，入选首届中国科协青年人才托举工程博士生专项(中国电子学会托举)。获2025年中国科学院院长特别奖。曾入选阿里星(2025 AliStar Program - P7)、字节跳动头部人才计划(3-1)等。

Education

University of Science and Technology of China (USTC)
Ph.D. , September 2020 ~
Supervisor: Prof. Zhendong Mao

University of Science and Technology of China (USTC)
B.Eng. , September 2016 ~ June 2020

Funding

National Natural Science Foundation of China (NSFC)

Research on Text-Guided Long Video Generation based on Spatiotemporal Native Collaboration

PI.

2024.05 ~ 2026.12

Selected Publications Google Scholar Profile

In the Year of 2026

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Fengyi Fu*, Mengqi Huang*✉, Shaojin Wu*, Yunsheng Jiang*, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo✉, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

PDF Technical Report Code Project

UFO: Chain-of-Evaluation for Omni-Condition Alignment in Multi-Modal Image Generation

Danning Zhang*, Yijing Lin*, Shuhan Zhuang*, Mengqi Huang✉, Shaojin Wu, Shancheng Fang, Zhendong Mao

PDF ICML 2026 Code

NativeTok: Native Visual Tokenization for Improved Image Generation

Bin Wu, Mengqi Huang✉, Weinan Jia, Zhendong Mao

PDF ICASSP 2026 Oral Code

Unified Customized Generation by Disentangled Reward Modeling

Shaojin Wu, Mengqi Huang✉, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

PDF CVPR 2026 Code

Scaling Multi-Identity Consistency for Image Customization via Multi-to-Multi Matching Paradigm

Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang✉, Fei Ding, Qian He

PDF CVPR 2026 Code

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

Weinan Jia, Yuning Lu✉, Mengqi Huang✉, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao

PDF ICLR 2026 Code

Towards Accurate Image Generation via Dynamic Generative Image Transformer

Zhendong Mao, Mengqi Huang, Yijing Lin, Quan Wang, Lei Zhang, Yongdong Zhang

PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 2026 Code

RealCustom++: Representing Images as Real Textual Word for Real-Time Customization

Zhendong Mao, Mengqi Huang, Fei Ding, Mingcong Liu, Qian He, Yongdong Zhang

PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 2026 Code

LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning

Fengyi Fu, Mengqi Huang✉, Lei Zhang, Zhendong Mao

PDF AAAI 2026 Code

In the Year of 2025

Pro3D-Editor: A Progressive-Views Perspective for Consistent and Precise 3D Editing

Yang Zheng, Mengqi Huang✉, Nan Chen, Zhendong Mao

PDF NeurIPS 2025 Code Project

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

Shaojin Wu, Mengqi Huang✉, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He

PDF ICCV 2025 Code Project

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

Yijing Lin, Mengqi Huang, Shuhan Zhuang, Zhendong Mao

PDF ICCV 2025 Code Project

DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization

Wenchuan Wang, Mengqi Huang, Yijing Tu, Zhendong Mao

PDF ICCV 2025 Code Project

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

Nan Chen, Mengqi Huang, Yihao Meng, Zhendong Mao

PDF ICCV 2025 Code Project

A4A: Adapter for Adapter Transfer via All-for-All Mapping for Cross-Architecture Models

Keyu Tu, Mengqi Huang, Zhuowei Chen, Zhendong Mao

PDF CVPR 2025

D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao

PDF CVPR 2025

Dragin3D: Image Editing by Dragging in 3D Space

Weiran Guang, Xiaoguang Gu, Mengqi Huang, Zhendong Mao

PDF CVPR 2025

FeedEdit: Text-Based Image Editing with Dynamic Feedback Regulation

Fengyi Fu, Lei Zhang, Mengqi Huang, Zhendong Mao

PDF CVPR 2025

CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization

Nan Chen, Mengqi Huang, Zhuowei Chen, Yang Zheng, Lei Zhang, Zhendong Mao

PDF AAAI 2025

In the Year of 2024

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang

PDF CVPR 2024 Code Project

Gradual Residuals Alignment: A Dual-Stream Framework for GAN Inversion and Image Attribute Editing

Hao Li, Mengqi Huang, Lei Zhang, Bo Hu, Yi Liu, Zhendong Mao

PDF AAAI 2024

DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation

Zhuowei Chen, Shancheng Fang, Wei Liu, Qian He, Mengqi Huang, Yongdong Zhang, Zhendong Mao

PDF AAAI 2024 Project

In the Year of 2023 & 2022

Towards Accurate Image Coding: Improved Autoregressive Image Generation With Dynamic Vector Quantization

Mengqi Huang, Zhendong Mao, Zhuowei Chen, Yongdong Zhang

PDF CVPR 2023 Highlight, 2.5% of submitted papers Code 📹 Video

Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation

Mengqi Huang, Zhendong Mao, Quan Wang, Yongdong Zhang

PDF CVPR 2023 Code 📹 Video

DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image Generation

Mengqi Huang, Zhendong Mao, Penghui Wang, Quan Wang, Yongdong Zhang

PDF ACM Multimedia 2022 Best Student Paper Award, 1/3009 of submitted papers

Awards

中国图像图形学会自然科学一等奖：《内生知识驱动的图像-文本语义关联》 2025

中国科学院院长特别奖 2025

ACM Multimedia 2022 Best Student Paper Award 2022

Industrial Research Experience

ByteDance Inc.

Intelligent Creation Department, July 2023 ~

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

PDF (CVPR) PDF (T-PAMI) CVPR 2024 & IEEE T-PAMI 2026 Code Project

Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang

We present RealCustom to disentangle subject similarity from text controllability and thereby allows both to be optimized simultaneously without conflicts. The core idea of RealCustom is to represent given subjects as real words that can be seamlessly integrated with given texts, and further leveraging the relevance between real words and image regions to disentangle visual condition from text condition.

UXO Series Research

UNO: Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

PDF ICCV 2025 Code Project

Shaojin Wu, Mengqi Huang✉, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
USO: Unified Customized Generation by Disentangled Reward Modeling

PDF CVPR 2026 Code

Shaojin Wu, Mengqi Huang✉, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
UMO: Scaling Multi-Identity Consistency for Image Customization via Multi-to-Multi Matching Paradigm

PDF CVPR 2026 Code

Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang✉, Fei Ding, Qian He

Lance: Unified Multimodal Modeling by Multi-Task Synergy

PDF Technical Report Code Project

Fengyi Fu*, Mengqi Huang*✉, Shaojin Wu*, Yunsheng Jiang*, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo✉, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

Lance is a 3B native unified multimodal model that supports image and video understanding, generation, and editing within a single framework.

Grand Challenges

第二届粤港澳大湾区国际算法算例大赛-高效可控的文生图方法

Team Leader, Second Prize.

August 2023 - November 2023

首届兴智杯全国人工智能应用创新大赛-多模态技术创新赛-基于文本的图像生成

Team Leader, Second Prize.

August 2022 - November 2022

ACM Multimedia 2020 Social Media Prediction Challenge

Team Leader, Top Performance Award. [Github]

March 2020 - June 2020

Last update: May 2026.

News

May 2026

UFO is accepted by ICML 2026!
February 2026

USO and UMO are accepted by CVPR 2026!
January 2026

1 paper is accepted by T-PAMI!! Good kickoff for the 2026. 🚀🚀🚀
November 2025

1 paper is accepted by AAAI 2026
October 2025

1 paper is accepted by T-PAMI!!
September 2025

1 paper is accepted by NeurIPS 2025!
June 2025

4 papers are accepted by ICCV 2025!
February 2025

4 papers are accepted by CVPR 2025!
December 2024

1 papers is accepted by AAAI 2025!
February 2024

1 papers is accepted by CVPR 2024!
December 2023

2 papers are accepted by AAAI 2024!
March 2023

Our paper "Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization" is selected as a highlight at CVPR 2023!
February 2023

2 papers are accepted by CVPR 2023!
October 2022

Our paper "DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image Generation" receives the Best Student Paper Award at ACM Multimedia 2022!
June 2022

1 paper is accepted by ACM Multimedia 2022!