Cargando la bóveda…
Cargando la bóveda…
MCP server con 81 installs. Vision MCP basado en el modelo GLM-4.6V de Z.AI: análisis de imágenes, OCR, descripciones. Para apps multimodales o procesamiento visual.
Z.AI Vision MCP usa el modelo GLM-4.6V (el vision-language model de Z.AI) para tareas visuales: análisis de imágenes, OCR avanzado, descripciones, Q&A sobre imágenes.
Aplicación típica: pasarle una imagen y pedir info. "¿Qué hay en esta imagen?", "Extraé el texto de este screenshot", "Describime estos productos visualmente".
Es uno de los 4 MCPs Z.AI del catálogo. Si tu stack usa el ecosystem Z.AI, mantener provider único simplifica.
npx claude-code-templates@latest --mcp devtools/zai-mcp-serverPre-requisito: cuenta Z.AI + API key.
Para Claude:
Instalé el MCP devtools/zai-mcp-server. Configurá las credenciales.
Para esta imagen [path], describime qué contiene y extraé el texto
visible (OCR)."Extraé texto de este screenshot de un PDF de tabla compleja. Preservá structure de filas/columnas". GLM-4.6V es serio en OCR.
"Para esta foto, describime: objetos visibles, contexto, colores predominantes, anything notable for accessibility". Genera alt text útil.
"En este diagrama de arquitectura, ¿cuál es el componente que recibe requests del cliente?". Inspección de visuales.
"Compará estas 2 imágenes y dame las diferencias visibles". Útil para regression testing visual.
Si combinás con MarkItDown (que convierte PDFs/imágenes a markdown), Z.AI Vision puede dar análisis adicional sobre las imágenes embebidas.