GLM-OCR : un OCR multimodal 0,9B compatible Ollama, rapide et SOTA
La start-up chinoise Zhipu AI présente GLM-OCR, un modèle OCR multimodal ouvert qui revendique un score de 94,6 sur OmniDocBench V1.5 avec seulement 0,9 milliard de paramètres. Compatible vLLM, SGLang et Ollama, il vise des déploiements à latence basse, y compris en périphérie, tout en gardant des résultats SOTA sur la reconnaissance de formules, de tableaux et l’extraction d’informations.
Ce que fait GLM-OCR et comment

Le modèle adopte une architecture encodeur-décodeur héritée de GLM-V, avec un encodeur visuel CogViT (environ 400 M de paramètres), une couche de connexion légère utilisant SwiGLU et un downsampling x4, puis un décodeur GLM-0.5B. L’entraînement combine pré-entraînement de type CLIP sur des milliards de paires image-texte, introduction de la perte MTP (multi tokens) pour densifier le signal supervisé et un cycle de RL sur tâches réelles afin d’améliorer robustesse et généralisation sur documents complexes.

Zhipu met en avant une segmentation en deux temps « analyse de mise en page → reconnaissance parallèle », avec un module de layout basé sur PP-DocLayout-V3. Côté cas d’usage, les démonstrations couvrent l’écriture manuscrite, les tableaux complexes à en-têtes multiples ou cellules fusionnées avec sortie directe en HTML, les tampons/estampilles et la lecture de code source, ainsi que l’extraction structurée vers JSON pour cartes, factures ou documents logistiques.

Performances, débit et coûts
En test interne, le débit atteint 1,86 page/s sur PDF et 0,67 image/s sur fichiers image, dans des conditions identiques et en export Markdown. L’éditeur annonce une tarification API symétrique entrée/sortie de 0,2 ¥ par million de tokens, soit 0,026 € environ, ce qui permettrait de traiter à peu près 2 000 pages A4 scannées ou 200 PDF de 10 pages pour 1 ¥ (environ 0,13 €), avec un coût présenté comme dix fois inférieur à des OCR classiques.







Le modèle est publié avec un SDK et une toolchain d’inférence, installation simple et invocation en une commande, et peut s’intégrer dans des pipelines RAG grâce à des sorties normalisées. Les cibles de déploiement incluent les serveurs à forte concurrence et les mini PC/edge grâce au faible encombrement mémoire et au nombre de paramètres réduit.
Disponibilité et liens
Code et poids sont disponibles sur GitHub et Hugging Face, avec une API via la plateforme Zhipu. Une démo en ligne est accessible. Zhipu prévoit d’étendre la famille à d’autres tailles et vers le multilingue étendu ainsi que la vidéo.
Pour un marché saturé par des OCR lourds ou dépendants d’infrastructures coûteuses, l’équation 0,9B + pipeline soigné + SDK prêt à l’emploi est stratégique. Si les chiffres annoncés sur layout complexe et tables HTML se confirment en production, les éditeurs de solutions documentaires et les intégrateurs RAG ont un candidat sérieux pour réduire la latence, le coût et la dépendance aux GPU haut de gamme, sans sacrifier la précision sur des cas réputés difficiles comme les formules et les tampons.
Source : ITHome