A survey on omni-modal language models

Lu Chen; Jiajie Mu; Jiarui Wang; Xiao Kang; Xiaoming Xi; Zheyun Qin

doi:10.55092/aiplus20260001

Review

Open Access

Cite

Expand

A survey on omni-modal language models

download PDF

Lu Chen¹, Jiajie Mu¹, Jiarui Wang¹, Xiao Kang², Xiaoming Xi¹, Zheyun Qin³^,∗

¹ School of Computer and Artiffcial Intelligence, Shandong Jianzhu University, Jinan, China

² School of Software, Shandong University, Jinan, China

³ School of Computer Science and Technology, Shandong University, Qingdao, China

* zheyun.qin@sdu.edu.cn

Volume
Volume 1 Issue 1, 2026
Citation
Chen L, Mu J, Wang J, Kang X, Xi X, et al. A survey on omni-modal language models. AI Plus 2026(1):0001, https://doi.org/10.55092/aiplus20260001.
DOI
10.55092/aiplus20260001
Copyright
Copyright2025 by the authors. Published by ELSP.

Abstract

This paper provides a comprehensive review of Omni-Modal Language Models (OMLMs), focusing on their evolution, technical challenges, application scenarios, and evaluation frameworks. OMLMs represent a significant leap from traditional unimodal and multimodal models by unifying modalities like text, images, audio, and video into a cohesive architecture. These models aim to simulate human-like multimodal perception, achieving semantic alignment and dynamic interaction between diverse data sources. Key topics covered include modality alignment, semantic fusion, and joint representation learning, alongside their application in fields such as healthcare, education, and industrial quality inspection. The paper also examines vertical adaptation paths, knowledge injection mechanisms, real-time optimization strategies, and a multi-dimensional evaluation system. Finally, future research directions are proposed, including improvements in generalization, task adaptability, energy efficiency, and ethical considerations, all critical for the widespread deployment of OMLMs in complex, real-world scenarios.

Keywords

omni-modal language models; semantic fusion; modality alignment; joint representation learning; cross-modal interaction

Preview

view pdf