Cargando la bóveda…
Cargando la bóveda…
Sistema de voz de Microsoft (38k+ ★) que transcribe cualquier audio/video gratis en 50+ idiomas con identificación de hablantes y timestamps. 60 min de audio por pasada. Después Claude lo convierte en resumen, guion viral, análisis o documento. Mata las apps de transcripción paid.
Sistema de IA de voz open source de Microsoft. Reconocimiento de voz (ASR) + síntesis (TTS).
Lo que nos importa: transcripción automática. Le pegás cualquier audio o video — junta, podcast, video TikTok, llamada de ventas — y saca el texto completo con:
Repo: microsoft/VibeVoice. 38k+ estrellas.
1. Vibe Voice transcribe (audio → texto con speakers + timestamps)
2. Claude procesa (resumen, guion, análisis, doc, lo que sea)
3. Vos publicás / aplicásMata las apps de transcripción paid (Otter, Whisper.cpp pre-built, Descript).
Instalá Vibe Voice de Microsoft desde
https://github.com/microsoft/VibeVoice en mi computadora.
Pasos:
1. Leé el README oficial para verificar requisitos
2. Cloná el repo
3. Instalá dependencias Python
4. Descargá modelos pre-entrenados
5. Configurá para que pueda usarlo desde Claude Code
Probalo al final: pasale audio corto y mostrame la transcripción.
Si algo falla durante instalación, diagnosticá y solucioná —
NO me preguntes a menos que sea bloqueo real.Claude se encarga del setup técnico.
> Acá hay grabación de reunión en /audio/meeting-2026-05-28.mp4
(90 min, 5 participantes).
Pasos:
1. Vibe Voice: transcribí con speaker identification
2. Claude: generá:
- Resumen ejecutivo (1 párrafo)
- Decisiones tomadas (bullets)
- Action items con responsables
- Quotes destacables (3-5)
3. Guardá todo en /docs/meeting-notes/2026-05-28.md> Acá hay 3 podcasts de mi nicho de últimos días.
URLs: [3 links]
Pasos:
1. Descargá audio
2. Vibe Voice transcribí cada uno
3. Claude: extraé las 5 ideas más interesantes por podcast
4. Sintetizá en un newsletter draft
5. Pasalo por /humanizalo> Vi este video viral: [URL TikTok]
1. Descargá audio
2. Vibe Voice transcribí
3. Claude: analizá la estructura del hook + cuerpo + payoff
4. Generá 3 variantes de guion con misma estructura pero
para mi nicho [TEMA]> Llamada con cliente en /calls/cliente-X-2026-05-28.mp3
1. Vibe Voice transcribí (identificá quién es cliente vs yo)
2. Claude: extraé:
- Pain points mencionados
- Objeciones
- Próximos pasos acordados
- Sentiment general
3. Generá nota CRM lista para pegar> Tomé curso online de 4 horas (4 videos).
1. Vibe Voice transcribí los 4
2. Claude: estructurá en:
- Outline del curso completo
- Conceptos clave (1 línea cada uno)
- Mis notas personales (cosas a aplicar)
- Quiz de autoevaluación de 10 preguntas
Guardá en mi vault de Obsidian.Vibe Voice: gratis + 50+ idiomas + speaker ID + on-device.
Para audios largos (>1h), tenés que dividir. Claude puede automatizar:
> Audio largo de 3h. Vibe Voice tiene límite de 60 min.
1. Divide en 3 chunks de 60 min
2. Transcribí cada uno
3. Concatená respetando timestamps acumulados
4. Identificá si hubo speakers que aparecen en múltiples chunksSi tu audio tiene ruido fuerte / múltiples voces simultáneas / acentos muy marcados, transcripción puede tener errores. Para audios críticos, revisá.
Para 60 min de audio, CPU puede tardar 30-60 min. Con GPU, 5-15 min. Si no tenés GPU, paciencia.
Si tu audio tiene ruido de fondo fuerte, limpialo primero (Audacity, RX). Garbage in, garbage out.
A veces Vibe Voice confunde speakers similares. Revisá la primera transcripción de cada nueva grabación.
Vibe Voice se entrenó con audio general. Para jerga muy especializada (médica, legal, técnica nicho), revisá términos.
Los timestamps son clave para volver al audio original si querés clip o validar. Conservalos aunque parezca ruido.
Si pasás 30 min de transcript bruto a Claude sin pedirle structure específica, te tira info dispersa. Pedile output estructurado siempre.
> Tengo audio de podcast (Vibe Voice transcribió).
> Quiero hacer Reel de 1 min con los 5 mejores momentos.
> Usá [Editor Pro Max](/boveda/editor-pro-max) para construir
el video con subtítulos burned-in.> Convertí transcript de Vibe Voice a Markdown limpio con
[MarkItDown](/boveda/microsoft-markitdown).
> Guardá en mi vault de Obsidian.Stack IA Creador integra Vibe Voice como pieza de transcripción → guion.