Penghui Ruan

PhD Candidate

The Hong Kong Polytechnic University

Research Interests

Video Generation

Video Editing

World Model

3D Vision

About

I am a fourth-year Ph.D. candidate at The Hong Kong Polytechnic University (PolyU), supervised by Prof. Jiannong Cao and Prof. Yuhui Shi at Southern University of Science and Technology (SUSTech). During my Ph.D. studies, I have closely collaborated with Dr. Pichao Wang from NVIDIA.

I received my B.E. in Computer Science and Technology from SUSTech in 2021, where I graduated in the top 10% of my class. I was also an exchange student at the University of Wisconsin-Madison (2020).

My current research focuses on Video Generation, Video Editing, World Model and 3D Vision, with a particular emphasis on diffusion models and their applications in visual content generation and manipulation.

I am currently actively seeking internship and full-time positions starting in 2026.

Selected Publications

View All →

Refacade: Editing Object with Given Reference Texture

Youze Huang^†, Penghui Ruan^†, Bojia Zi^†, Xianbiao Qi, Jianan Wang, Rong Xiao

The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026, Equal Contribution

JDM: Joint Distribution Modeling for Fine-Grained Text-to-Video Generation

Penghui Ruan, Bojia Zi, Youze Huang, Pichao Wang, Xianbiao Qi, Rong Xiao, Jiannong Cao, Yuhui Shi.

Under Review

Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

Penghui Ruan^†, Bojia Zi^†, Youze Huang, Pichao Wang, Xianbiao Qi, Rong Xiao, Jiannong Cao, Yuhui Shi.

The Fourteenth International Conference on Learning Representations (ICLR) 2026, Equal Contribution

Señorita-2M: A High-Quality Instruction-Based Dataset for General Video Editing by Video Specialists

Bojia Zi^†, Penghui Ruan^†, Xianbiao Qi, Shaozhe Hao, Shihao Zhao, Youze Huang, Bin Liang, Rong Xiao, Kam-Fai Wong

Advances in Neural Information Processing Systems (NeurIPS) 2025, Equal Contribution

Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning

Penghui Ruan, Pichao Wang, Divya Saxena, Jiannong Cao, Yuhui Shi

Advances in Neural Information Processing Systems (NeurIPS) 2024

Professional Experience

Applied Scientist Intern

Oct 2025 - Present

Amazon

Researching and developing foundational models for high-quality movie dubbing with precise lip synchronization and video preservation. Presented to Vice President Gerard Medioni.

AmazonSeattleResearch

AIGC Research Intern

Dec 2024 - Oct 2025

IntelliFusion Inc.

Built and trained large-scale T2V/video-editing models with fine-grained control over content via textual conditioning and explicit 3D camera control. Spearheading the creation of a large-scale, multi-task instructional video editing dataset.

IntelliFusionShenzhenAI

Software Engineer Intern

Apr 2021 - Jun 2021

Tencent

Migrated sensitive word filtering service from HTTPS to TRPC, optimizing efficiency and enhancing security. Contributed to the Routing Service for video search.

TencentShenzhenEngineering

Education

Ph.D. in Computer Science

Sep 2022 - Aug 2026 (Expected)

The Hong Kong Polytechnic University

Specializing in Text-to-Video Generation, Video Editing, and 3D Vision. Advisors: Prof. Jiannong Cao and Prof. Yuhui Shi.

PhDComputer ScienceHong Kong

B.E. in Computer Science and Technology

Sep 2017 - Jun 2021

Southern University of Science and Technology

GPA: 3.74/4.00 (Top 10%)

BachelorComputer ScienceChina

Exchange Student

Jan 2020 - Sep 2020

University of Wisconsin-Madison

GPA: 3.83/4.0 (Top 5%)

Exchange StudentComputer ScienceUSA

Services

Reviewer

2025

ICCV 2025, ACMMM 2025, NeurIPS 2025, ICLR 2026, CVPR 2026