Procesador de vídeo y audio

Extrae con IA, de un solo paso, transcripción, resumen y capturas a partir de un vídeo

Sube un vídeo (MP4, MOV, WebM, AVI, etc.) y la IA transcribe el audio, genera un resumen y exporta como ZIP las capturas en los cambios de escena. Ideal para grabaciones de Zoom o Teams, vídeos de YouTube, clases o vídeos de formación interna a la hora de hacer actas o resúmenes.

Tres entregables a partir de un solo vídeo

Esta herramienta genera **automáticamente**, a partir de un único archivo de vídeo, los siguientes resultados:

1. **Transcripción completa**: el audio en japonés se pasa a texto con alta precisión usando OpenAI Whisper. 2. **Resumen (en Markdown)**: Claude Sonnet lee la transcripción y extrae los puntos clave. 3. **ZIP de capturas**: capturas de pantalla en cada cambio de escena o a un intervalo fijo.

Incluso un vídeo de reunión de una hora se procesa por completo en 5-10 minutos.

Casos de uso

· **Acta a partir de una grabación de Zoom o Teams**: graba → sube → en 5 minutos tienes un acta estructurada. · **Apuntes de clases o seminarios**: la transcripción del vídeo más capturas por capítulo se convierten en unos apuntes completos. · **Convertir un vídeo de YouTube en artículo**: transcribe tu vídeo y la IA lo convierte en artículo. · **Material de repaso para formación interna**: en el plan Free, tras ver 3 anuncios, obtienes el acta y las escenas clave guardadas.

Stack técnico

· **Extracción de audio**: ffmpeg (licencia LGPL, uso comercial permitido) convierte en cascada el vídeo a mp3, m4a o wav. · **Transcripción**: API de OpenAI Whisper (modelo `whisper-1`, fijado a language=ja para japonés). · **Resumen**: Claude Sonnet 4.5. · **Capturas**: detección de cambio de escena (scene change detection) de ffmpeg, o capturas a intervalos fijos en segundos.

Privacidad

Los vídeos subidos se almacenan temporalmente en AWS S3 (región de Tokio) y se eliminan automáticamente antes de una hora desde el procesamiento. Los envíos a las API de Whisper y Anthropic van cifrados por TLS y bajo contrato de zero-data-retention. Puedes usarlo con tranquilidad incluso para vídeos confidenciales de reuniones internas.

El tamaño máximo del archivo es 20 MB (Free), 100 MB (Light) o 200 MB (Premium). El procesamiento del vídeo se ejecuta como una tarea asíncrona, así que aunque cierres el navegador continúa hasta el final.

Preguntas frecuentes

¿Puede procesar un vídeo de una hora?

Sí. El límite de 25 MB de Whisper se resuelve internamente con un troceado automático, así que también admite audios y vídeos largos. Eso sí, el archivo en sí debe entrar dentro del límite de tu plan (Free 20 MB, Light 100 MB, Premium 200 MB).

¿Qué formatos de vídeo admite?

MP4, MOV, WebM, AVI y MKV. Los vídeos grabados con el móvil (.mov o .mp4) se pueden subir directamente.

¿Distingue a los hablantes?

Por ahora no hay diarización; la IA infiere los participantes a partir del contexto en la transcripción. Si tienes los subtítulos con etiquetas de hablante de Zoom o Teams, pegándolos por separado mejora la precisión.

¿Cuándo se hacen las capturas?

El modo «cambio de escena» detecta automáticamente cuándo cambia mucho la escena. El modo «intervalo fijo» captura cada N segundos (10 por defecto). Para vídeos de reunión va mejor el cambio de escena; para clases, el intervalo fijo.

¿Se puede procesar vídeo en el plan Free?

Sí, pero antes hay que ver 3 anuncios recompensados (con Light basta 1; con Premium no hace falta ninguno). Es una compensación por el coste alto de la API de Whisper.

Extrae con IA, de un solo paso, transcripción, resumen y capturas a partir de un vídeo

Tres entregables a partir de un solo vídeo

Esta herramienta genera **automáticamente**, a partir de un único archivo de vídeo, los siguientes resultados:

Incluso un vídeo de reunión de una hora se procesa por completo en 5-10 minutos.

Casos de uso

Stack técnico

Privacidad

Preguntas frecuentes

¿Puede procesar un vídeo de una hora?

¿Qué formatos de vídeo admite?

MP4, MOV, WebM, AVI y MKV. Los vídeos grabados con el móvil (.mov o .mp4) se pueden subir directamente.

¿Distingue a los hablantes?

¿Cuándo se hacen las capturas?

¿Se puede procesar vídeo en el plan Free?

Sí, pero antes hay que ver 3 anuncios recompensados (con Light basta 1; con Premium no hace falta ninguno). Es una compensación por el coste alto de la API de Whisper.

Procesador de vídeo y audio

Extrae con IA, de un solo paso, transcripción, resumen y capturas a partir de un vídeo

Tres entregables a partir de un solo vídeo

Casos de uso

Stack técnico

Privacidad

Preguntas frecuentes

Herramientas que se usan junto a esta

Procesador de vídeo y audio

Extrae con IA, de un solo paso, transcripción, resumen y capturas a partir de un vídeo

Tres entregables a partir de un solo vídeo

Casos de uso

Stack técnico

Privacidad

Preguntas frecuentes

Herramientas que se usan junto a esta