OCI Speech es un servicio de IA que transcribe voz a texto y sintetiza voz a partir de texto. Aplica la tecnología de reconocimiento automático del habla para transformar el contenido basado en audio en texto en tiempo real o de forma asíncrona. La función de texto a voz basada en red neuronal genera una voz de sonido natural basada a partir del texto que introduces. Puedes realizar llamadas a la API para integrar los modelos preentrenados de OCI Speech en sus aplicaciones. OCI Speech se puede utilizar para transcripciones precisas, normalizadas por texto, con registro de hora o voz sintética a través de la consola, las API REST, así como de CLI o SDK. También puedes usar OCI Speech en una sesión de cuaderno de OCI Data Science. Con OCI Speech, puedes filtrar las palabras, obtener puntuaciones de confianza para palabras solas, transcripciones completas y mucho más.
Deberías usar OCI Speech si necesitas un servicio de transcripción rápido, preciso y con marca de tiempo. Si utilizas OCI para almacenar tus archivos de audio, también puedes disfrutar de latencias más bajas y sin costos de red asociados a la transcripción. Las últimas funciones de voz a voz y de voz a texto en tiempo real, ahora con disponibilidad limitada, proporcionan capacidades adicionales para integrarse con la aplicación.
Para empezar, inicia sesión para crear tu primera transcripción o lee más sobre el servicio.
Actualmente admitimos la transcripción asincrónica basada en archivos. La transcripción en tiempo real se ofrece en disponibilidad limitada en este momento.
La transcripción cuenta con modelos preentrenados para los siguientes idiomas: inglés, español, portugués, alemán, francés, italiano e hindi. También admitimos el modelo OpenAI Whisper para la transcripción asíncrona basada en archivos, con compatibilidad inmediata con más de 57 idiomas.
No. Solo transcribimos tu contenido y no guardamos ninguna información del archivo.
Como cualquier otro servicio de transcripción, la calidad del resultado depende de la calidad del archivo de audio de entrada. Los acentos de los hablantes, los ruidos de fondo, el cambio entre idiomas, el uso de idiomas fusionados (como el Spanglish) y varias personas hablando al mismo tiempo pueden afectar la calidad de la transcripción. Trabajamos constantemente para mejorar el desempeño del servicio y ofrecer transcripciones más precisas para todas las entradas y hablantes.
Actualmente no, pero esta capacidad estará disponible en breve.
Admitimos archivos de audio WAV PCM de un solo canal y 16 bits con una frecuencia de muestreo de 16 kHz. También admitimos los siguientes formatos de medios y los convertiremos a PCM WAV antes de transcribirlos:
También se pueden convertir los archivos antes de enviar trabajos para reducir la latencia. Recomendamos Audacity (GUI) o FFmpeg (línea de comandos) para la transcodificación de audio.
Admitimos JSON como formato predeterminado y SRT como opción sin costos adicionales.
Utilizamos la facturación de precisión, lo que significa que cobramos $ 0,50 por cada hora de transcripción o síntesis de voz, pero utilizamos segundos para medir el uso agregado. Por ejemplo, si subes tres archivos con duraciones respectivas de 10.860 segundos, 8.575 segundos y 9.421 segundos, tu factura mensual se calculará por la suma de tus segundos (28.856) dividida por 3.600 (el número de segundos en una hora) y menos 5 (el número de horas gratuitas al mes), multiplicada por $0,50. En otras palabras, se te cobrará $1,508 o (28.856/3.600 - 5) x $0.50 = $1,508.
Nuestra métrica facturable es la hora de transcripción. La hora de transcripción mide el número de horas de audio transcritas o sintetizadas durante un mes determinado del servicio.
No OCI Speech no tiene cargos de configuración ni compromisos mínimos de servicio, y no se requiere hardware.
Sí. Ofrecemos cinco horas de transcripción gratuita cada mes por arrendamiento.
La puntuación es un servicio gratuito al igual que SRT. El almacenamiento de archivos SRT puede aumentar tu tarifa de almacenamiento.
OCI Speech funciona con cualquier dispositivo de grabación y no es específico de un dispositivo.
Te recomendamos que utilices la utilidad FFmpeg con el siguiente comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Consulta la documentación Configuración de la política de Speech..