DashengTokenizer: One Layer is Enough for Unified Audio Understanding and Generation

Published in arXiv preprint, 2025

We propose DashengTokenizer, a unified continuous audio tokenizer for audio understanding and generation. By injecting acoustic information into frozen semantic features, it significantly outperforms mainstream codec/tokenizer baselines on speech, music, and environmental sound understanding tasks, and achieves better results than VAE baselines on TTA, TTM, and speech enhancement generation tasks.

Recommended citation: Heinrich Dinkel, Xingwei Sun, Gang Li, Jiahao Mei, et al. "DashengTokenizer: One Layer is Enough for Unified Audio Understanding and Generation." arXiv, 2025.
Download Paper

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Jiahao Mei (梅嘉豪)

Share on