Intermediomcp

MCP Z.AI Vision — vision capabilities con GLM-4.6V

MCP server con 81 installs. Vision MCP basado en el modelo GLM-4.6V de Z.AI: análisis de imágenes, OCR, descripciones. Para apps multimodales o procesamiento visual.

29 de mayo de 20262 min de lecturaclaude-codezai

GitHub

Qué es#

Z.AI Vision MCP usa el modelo GLM-4.6V (el vision-language model de Z.AI) para tareas visuales: análisis de imágenes, OCR avanzado, descripciones, Q&A sobre imágenes.

Aplicación típica: pasarle una imagen y pedir info. "¿Qué hay en esta imagen?", "Extraé el texto de este screenshot", "Describime estos productos visualmente".

Es uno de los 4 MCPs Z.AI del catálogo. Si tu stack usa el ecosystem Z.AI, mantener provider único simplifica.

Tabla resumen#

Campo	Valor
Categoría aitmpl	`devtools`
Installs	81
Servidor MCP	`zai-mcp-server`
Modelo	Z.AI GLM-4.6V (vision)
Cuenta requerida	Sí — Z.AI

Cómo se instala#

bash

npx claude-code-templates@latest --mcp devtools/zai-mcp-server

Pre-requisito: cuenta Z.AI + API key.

Para Claude:

bash

Instalé el MCP devtools/zai-mcp-server. Configurá las credenciales.
Para esta imagen [path], describime qué contiene y extraé el texto
visible (OCR).

Qué podés hacer con esto#

OCR avanzado#

"Extraé texto de este screenshot de un PDF de tabla compleja. Preservá structure de filas/columnas". GLM-4.6V es serio en OCR.

Análisis de imágenes#

"Para esta foto, describime: objetos visibles, contexto, colores predominantes, anything notable for accessibility". Genera alt text útil.

Q&A visual#

"En este diagrama de arquitectura, ¿cuál es el componente que recibe requests del cliente?". Inspección de visuales.

Comparación#

"Compará estas 2 imágenes y dame las diferencias visibles". Útil para regression testing visual.

Procesamiento de docs visuales#

Si combinás con MarkItDown (que convierte PDFs/imágenes a markdown), Z.AI Vision puede dar análisis adicional sobre las imágenes embebidas.

Pre-requisitos#

Cuenta Z.AI con plan apto
API key
Imágenes accesibles (path local o URL)

Cuándo NO conviene#

⚠️ Antes de instalar

Si tu uso es solo OCR simple: Tesseract local puede alcanzar gratis.
Para vision tasks con Claude nativo: Claude tiene vision built-in en algunos casos. Compará con costo.
Compliance: Z.AI es chino. Validá si tu org permite enviar imágenes a ese servicio.
Data sensible en imágenes: una imagen con info personal pasa al server Z.AI. Tené policy clara.
Costos: vision models cobran por imagen procesada. Mirá pricing.

Bajalo de la fuente#

Ficha en aitmpl.com: Z.AI Vision MCP — comando exacto.
Config JSON: zai-mcp-server.json.
Z.AI: open.bigmodel.cn.

Recursos relacionados#

ImageSorcery MCP — para procesamiento (no análisis) de imágenes.
MarkItDown MCP — para convertir PDFs e imágenes a markdown. Combo natural.
Web Reader MCP — otro MCP del ecosistema Z.AI.

Cargando la bóveda…

Qué es#

Z.AI Vision MCP usa el modelo GLM-4.6V (el vision-language model de Z.AI) para tareas visuales: análisis de imágenes, OCR avanzado, descripciones, Q&A sobre imágenes.

Aplicación típica: pasarle una imagen y pedir info. "¿Qué hay en esta imagen?", "Extraé el texto de este screenshot", "Describime estos productos visualmente".

Es uno de los 4 MCPs Z.AI del catálogo. Si tu stack usa el ecosystem Z.AI, mantener provider único simplifica.

Tabla resumen#

Campo	Valor
Categoría aitmpl	`devtools`
Installs	81
Servidor MCP	`zai-mcp-server`
Modelo	Z.AI GLM-4.6V (vision)
Cuenta requerida	Sí — Z.AI

Cómo se instala#

bash

npx claude-code-templates@latest --mcp devtools/zai-mcp-server

Pre-requisito: cuenta Z.AI + API key.

Para Claude:

bash

Instalé el MCP devtools/zai-mcp-server. Configurá las credenciales.
Para esta imagen [path], describime qué contiene y extraé el texto
visible (OCR).

Qué podés hacer con esto#

OCR avanzado#

"Extraé texto de este screenshot de un PDF de tabla compleja. Preservá structure de filas/columnas". GLM-4.6V es serio en OCR.

Análisis de imágenes#

"Para esta foto, describime: objetos visibles, contexto, colores predominantes, anything notable for accessibility". Genera alt text útil.

Q&A visual#

"En este diagrama de arquitectura, ¿cuál es el componente que recibe requests del cliente?". Inspección de visuales.

Comparación#

"Compará estas 2 imágenes y dame las diferencias visibles". Útil para regression testing visual.

Procesamiento de docs visuales#

Si combinás con MarkItDown (que convierte PDFs/imágenes a markdown), Z.AI Vision puede dar análisis adicional sobre las imágenes embebidas.

Pre-requisitos#

Cuenta Z.AI con plan apto
API key
Imágenes accesibles (path local o URL)

Cuándo NO conviene#

⚠️ Antes de instalar

Si tu uso es solo OCR simple: Tesseract local puede alcanzar gratis.
Para vision tasks con Claude nativo: Claude tiene vision built-in en algunos casos. Compará con costo.
Compliance: Z.AI es chino. Validá si tu org permite enviar imágenes a ese servicio.
Data sensible en imágenes: una imagen con info personal pasa al server Z.AI. Tené policy clara.
Costos: vision models cobran por imagen procesada. Mirá pricing.

Bajalo de la fuente#

Ficha en aitmpl.com: Z.AI Vision MCP — comando exacto.
Config JSON: zai-mcp-server.json.
Z.AI: open.bigmodel.cn.

Recursos relacionados#

ImageSorcery MCP — para procesamiento (no análisis) de imágenes.
MarkItDown MCP — para convertir PDFs e imágenes a markdown. Combo natural.
Web Reader MCP — otro MCP del ecosistema Z.AI.

MCP Z.AI Vision — vision capabilities con GLM-4.6V

Qué es#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Tabla resumen#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Cómo se instala#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Qué podés hacer con esto#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

OCR avanzado#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Análisis de imágenes#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Q&A visual#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Comparación#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Procesamiento de docs visuales#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Pre-requisitos#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Cuándo NO conviene#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Bajalo de la fuente#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Recursos relacionados#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Recursos relacionados

MCP ImageSorcery — procesamiento de imágenes desde Claude Code

MCP MarkItDown — convertí PDFs, Word, Excel, imágenes y audio a Markdown

MCP Web Reader — Z.AI lector web optimizado para LLMs

MCP Z.AI Vision — vision capabilities con GLM-4.6V

Qué es#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Tabla resumen#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Cómo se instala#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Qué podés hacer con esto#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

OCR avanzado#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Análisis de imágenes#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Q&A visual#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Comparación#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Procesamiento de docs visuales#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Pre-requisitos#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Cuándo NO conviene#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Bajalo de la fuente#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Recursos relacionados#.heading-anchor:hover { opacity: 1 !important; } *:hover > .heading-anchor { opacity: 0.5; }

Recursos relacionados

MCP ImageSorcery — procesamiento de imágenes desde Claude Code

MCP MarkItDown — convertí PDFs, Word, Excel, imágenes y audio a Markdown

MCP Web Reader — Z.AI lector web optimizado para LLMs

Qué es#

Tabla resumen#

Cómo se instala#

Qué podés hacer con esto#

OCR avanzado#

Análisis de imágenes#

Q&A visual#

Comparación#

Procesamiento de docs visuales#

Pre-requisitos#

Cuándo NO conviene#

Bajalo de la fuente#

Recursos relacionados#

Qué es#

Tabla resumen#

Cómo se instala#

Qué podés hacer con esto#

OCR avanzado#

Análisis de imágenes#

Q&A visual#

Comparación#

Procesamiento de docs visuales#

Pre-requisitos#

Cuándo NO conviene#

Bajalo de la fuente#

Recursos relacionados#