totonoeAI
Precios

totonoeai

Herramientas de IA que ordenan tus documentos

Herramientas gratuitas

  • Conversor de PDF
  • Word/Excel → Markdown
  • Imagen → Texto (OCR)
  • Editor de Markdown
  • Conversor de diagramas
  • Capturas → PDF
  • Editor de PDF
  • Editor de imágenes
  • Conversor de datos
  • Formateador SQL
  • Acortador de URL

Herramientas de IA

  • Formateador de documentos con IA
  • Actas de reunión con IA
  • Extracción de tablas con IA
  • Generador de diagramas con IA
  • Procesador de vídeo y audio

Otros

  • Planes y precios
  • Condiciones de uso
  • Política de privacidad
  • Información legal y comercial

© 2026 totonoeai

Procesador de vídeo y audio

Sube un vídeo (mp4 / mov / webm / avi) o un archivo de audio (mp3 / wav / m4a / ogg) y obtendrás la transcripción completa, un resumen o actas de reunión estructuradas, además de capturas de pantalla (solo vídeo) en una sola tarea. El contenido largo se procesa sin agotarse.

Arrastra y suelta un archivo

ohaz clic para seleccionar

Formatos: .mp4, .mov, .webm, .avi, .mp3, .wav, .wav, .m4a, .ogg / hasta 200MB

Modo de salida

Configuración de capturas

Extrae con IA, de un solo paso, transcripción, resumen y capturas a partir de un vídeo

Sube un vídeo (MP4, MOV, WebM, AVI, etc.) y la IA transcribe el audio, genera un resumen y exporta como ZIP las capturas en los cambios de escena. Ideal para grabaciones de Zoom o Teams, vídeos de YouTube, clases o vídeos de formación interna a la hora de hacer actas o resúmenes.

Tres entregables a partir de un solo vídeo

Esta herramienta genera **automáticamente**, a partir de un único archivo de vídeo, los siguientes resultados:

1. **Transcripción completa**: el audio en japonés se pasa a texto con alta precisión usando OpenAI Whisper. 2. **Resumen (en Markdown)**: Claude Sonnet lee la transcripción y extrae los puntos clave. 3. **ZIP de capturas**: capturas de pantalla en cada cambio de escena o a un intervalo fijo.

Incluso un vídeo de reunión de una hora se procesa por completo en 5-10 minutos.

Casos de uso

· **Acta a partir de una grabación de Zoom o Teams**: graba → sube → en 5 minutos tienes un acta estructurada. · **Apuntes de clases o seminarios**: la transcripción del vídeo más capturas por capítulo se convierten en unos apuntes completos. · **Convertir un vídeo de YouTube en artículo**: transcribe tu vídeo y la IA lo convierte en artículo. · **Material de repaso para formación interna**: en el plan Free, tras ver 3 anuncios, obtienes el acta y las escenas clave guardadas.

Stack técnico

· **Extracción de audio**: ffmpeg (licencia LGPL, uso comercial permitido) convierte en cascada el vídeo a mp3, m4a o wav. · **Transcripción**: API de OpenAI Whisper (modelo `whisper-1`, fijado a language=ja para japonés). · **Resumen**: Claude Sonnet 4.5. · **Capturas**: detección de cambio de escena (scene change detection) de ffmpeg, o capturas a intervalos fijos en segundos.

Privacidad

Los vídeos subidos se almacenan temporalmente en AWS S3 (región de Tokio) y se eliminan automáticamente antes de una hora desde el procesamiento. Los envíos a las API de Whisper y Anthropic van cifrados por TLS y bajo contrato de zero-data-retention. Puedes usarlo con tranquilidad incluso para vídeos confidenciales de reuniones internas.

El tamaño máximo del archivo es 20 MB (Free), 100 MB (Light) o 200 MB (Premium). El procesamiento del vídeo se ejecuta como una tarea asíncrona, así que aunque cierres el navegador continúa hasta el final.

Preguntas frecuentes

¿Puede procesar un vídeo de una hora?

Sí. El límite de 25 MB de Whisper se resuelve internamente con un troceado automático, así que también admite audios y vídeos largos. Eso sí, el archivo en sí debe entrar dentro del límite de tu plan (Free 20 MB, Light 100 MB, Premium 200 MB).

¿Qué formatos de vídeo admite?

MP4, MOV, WebM, AVI y MKV. Los vídeos grabados con el móvil (.mov o .mp4) se pueden subir directamente.

¿Distingue a los hablantes?

Por ahora no hay diarización; la IA infiere los participantes a partir del contexto en la transcripción. Si tienes los subtítulos con etiquetas de hablante de Zoom o Teams, pegándolos por separado mejora la precisión.

¿Cuándo se hacen las capturas?

El modo «cambio de escena» detecta automáticamente cuándo cambia mucho la escena. El modo «intervalo fijo» captura cada N segundos (10 por defecto). Para vídeos de reunión va mejor el cambio de escena; para clases, el intervalo fijo.

¿Se puede procesar vídeo en el plan Free?

Sí, pero antes hay que ver 3 anuncios recompensados (con Light basta 1; con Premium no hace falta ninguno). Es una compensación por el coste alto de la API de Whisper.

Herramientas que se usan junto a esta

Actas de reunión con IA →

Cuando solo quieres crear el acta a partir de audio o texto, no de vídeo.

Capturas → PDF →

Convierte el ZIP de capturas resultante en un único PDF.

Formateador de documentos con IA →

Reestructura el resumen en formato de informe o propuesta.