关于我

我是上海交通大学计算机科学与技术专业的硕士研究生（2028.3毕业），在跨语言媒体智能实验室（X-LANCE Lab）工作，导师为吴梦玥教授和俞凯教授。

我于2025年在华东师范大学获得计算机科学工学学士学位，本科期间在语言认知与知识计算实验室（ICALK Lab）工作，导师为董道国研究员和贺樑教授。

我的研究兴趣在通用音频理解与生成和LLM，欢迎通过微信或邮件联系我。

研究兴趣

上海交通大学，计算机科学，工学硕士，2025.9 - 2028.3

小米集团（北京），小爱PLUS · 语音生成团队，算法工程师，2026.1 - 2026.7

阿里巴巴（杭州），通义实验室 · 自然语言智能团队，算法工程师，2024.1 - 2024.8

Jiahao Mei, Heinrich Dinkel, Yadong Niu, et al. “Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text.” arXiv, 2026. (NeurIPS在投)
- 提出面向通用音频场景生成的统一文本到音频框架，通过结构化多视角描述与语义-声学统一表征，实现语音、音乐、音效及环境声的端到端协同生成，性能逼近真实录音。
Xuenan Xu*, Jiahao Mei*, Zihao Zheng, et al. “UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities.” arXiv, 2025. (NeurIPS在投)
- 提出第一个完全开源的基于Flow Matching的统一音频生成框架，创新提出Dual-Fusion机制统一建模Time-Align和Non-Time-Align两大类音频生成任务，支持文本、音频和视频等全模态输入，在TTS、TTA、V2A等七项任务上展现优秀性能。
Heinrich Dinkel, Xingwei Sun, Gang Li, Jiahao Mei, et al. “DashengTokenizer: One Layer is Enough for Unified Audio Understanding and Generation.” arXiv, 2026. (NeurIPS在投)
- 提出面向音频理解与生成的统一连续音频tokenizer，通过将声学信息注入冻结语义特征，在语音、音乐与环境声理解任务上显著优于主流codec/tokenizer基线。

Jialing Zou*, Jiahao Mei*, Xudong Nan, et al. “TEAdapter: Supply Vivid Guidance for Controllable Text-to-Music Generation.” IEEE ICME, 2024.
- 提出轻量级插件TEAdapter，通过提取Teacher Music中的和弦、旋律与乐器特征实现细粒度可控音乐生成，设计基于结构功能的多Adapter协同与Inpainting机制解决长音频结构连贯性问题。
Jiahao Mei, Xuenan Xu, Zeyu Xie, et al. “LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment.” arXiv, 2025.
- 提出Latent Affective Representation Alignment机制，实现对音乐生成模型的连续细粒度情感控制，接受连续valence-arousal值作为输入，有效解耦情感属性与音乐内容。

Xuenan Xu, Jiahao Mei, Chenliang Li, et al. “MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio.” NAACL, 2025.
- 提出开源多模态多智能体故事视频生成框架，通过多阶段写作pipeline与全模态专家智能体协同，实现高质量沉浸式有声绘本视频生成。ModelScope 85K+次访问，产品落地 starlightai.ms.show。
Kaiyuan Liu, Jiahao Mei, Hengyu Zhang, et al. “Moyun: A Diffusion-Based Model for Style-Specific Chinese Calligraphy Generation.” ACM MM Workshop, 2025.
- 提出基于Vision Mamba和TripleLabel机制的中文书法生成模型，构建超过190万张中文书法图像的Mobao数据集。

Yuning Wu, Jiahao Mei, Ming Yan, et al. “WritingBench: A Comprehensive Benchmark for Generative Writing.” NeurIPS, 2025.
- 提出覆盖6大领域、100子领域、1239条Query的长文本创作综合Benchmark，动态评估框架达83%人类一致性，显著超越静态评估标准。
Jialing Zou*, Jiahao Mei*, Guangze Ye, et al. “EMID: An Emotional Aligned Dataset in Audio-Visual Modality.” ACM MM Workshop, 2023.
- 构建高质量音乐-图像跨模态匹配数据集（30K+数据对），将音乐与图像的情感一致性作为跨模态对齐的主要依据。