Preguntas frecuentes de la conversión de voz en texto con IA


Aspectos generales

¿Qué es Oracle Cloud Infrastructure Speech?

OCI Speech es un servicio de IA que transcribe voz a texto y sintetiza voz a partir de texto. Aplica la tecnología de reconocimiento automático del habla para transformar el contenido basado en audio en texto en tiempo real o de forma asíncrona. La función de texto a voz basada en red neuronal genera una voz de sonido natural basada a partir del texto que introduces. Puedes realizar llamadas a la API para integrar los modelos preentrenados de OCI Speech en sus aplicaciones. OCI Speech se puede utilizar para transcripciones precisas, normalizadas por texto, con registro de hora o voz sintética a través de la consola, las API REST, así como de CLI o SDK. También puedes usar OCI Speech en una sesión de cuaderno de OCI Data Science. Con OCI Speech, puedes filtrar las palabras, obtener puntuaciones de confianza para palabras solas, transcripciones completas y mucho más.

¿Por qué debería usar OCI Speech?

Deberías usar OCI Speech si necesitas un servicio de transcripción rápido, preciso y con marca de tiempo. Si utilizas OCI para almacenar tus archivos de audio, también puedes disfrutar de latencias más bajas y sin costos de red asociados a la transcripción. Las últimas funciones de voz a voz y de voz a texto en tiempo real, ahora con disponibilidad limitada, proporcionan capacidades adicionales para integrarse con la aplicación.

¿Cómo empiezo con OCI Speech?

Para empezar, inicia sesión para crear tu primera transcripción o lee más sobre el servicio.

Características

¿Qué servicios de transcripción son compatibles?

Actualmente admitimos la transcripción asincrónica basada en archivos. La transcripción en tiempo real se ofrece en disponibilidad limitada en este momento.

¿Qué idiomas se admiten actualmente?

La transcripción cuenta con modelos preentrenados para los siguientes idiomas: inglés, español, portugués, alemán, francés, italiano e hindi. También admitimos el modelo OpenAI Whisper para la transcripción asíncrona basada en archivos, con compatibilidad inmediata con más de 57 idiomas.

¿Los archivos que transcribo se utilizan por OCI para mejorar el servicio (o para cualquier otra cosa)?

No. Solo transcribimos tu contenido y no guardamos ninguna información del archivo.

¿Qué más debo saber sobre el servicio?

Como cualquier otro servicio de transcripción, la calidad del resultado depende de la calidad del archivo de audio de entrada. Los acentos de los hablantes, los ruidos de fondo, el cambio entre idiomas, el uso de idiomas fusionados (como el Spanglish) y varias personas hablando al mismo tiempo pueden afectar la calidad de la transcripción. Trabajamos constantemente para mejorar el desempeño del servicio y ofrecer transcripciones más precisas para todas las entradas y hablantes.

¿Puede OCI Speech detectar automáticamente el idioma en el archivo?

Actualmente no, pero esta capacidad estará disponible en breve.

¿Qué formatos de archivo de entrada admiten?

Admitimos archivos de audio WAV PCM de un solo canal y 16 bits con una frecuencia de muestreo de 16 kHz. También admitimos los siguientes formatos de medios y los convertiremos a PCM WAV antes de transcribirlos:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

También se pueden convertir los archivos antes de enviar trabajos para reducir la latencia. Recomendamos Audacity (GUI) o FFmpeg (línea de comandos) para la transcodificación de audio.

¿Qué formatos de salida son compatibles?

Admitimos JSON como formato predeterminado y SRT como opción sin costos adicionales.

Facturación y precios

¿Cómo se me cobrará?

Utilizamos la facturación de precisión, lo que significa que cobramos $ 0,50 por cada hora de transcripción o síntesis de voz, pero utilizamos segundos para medir el uso agregado. Por ejemplo, si subes tres archivos con duraciones respectivas de 10.860 segundos, 8.575 segundos y 9.421 segundos, tu factura mensual se calculará por la suma de tus segundos (28.856) dividida por 3.600 (el número de segundos en una hora) y menos 5 (el número de horas gratuitas al mes), multiplicada por $0,50. En otras palabras, se te cobrará $1,508 o (28.856/3.600 - 5) x $0.50 = $1,508.

¿Cuál es la métrica facturable para OCI Speech?

Nuestra métrica facturable es la hora de transcripción. La hora de transcripción mide el número de horas de audio transcritas o sintetizadas durante un mes determinado del servicio.

¿Existen cargos por configuración o compromisos mínimos de servicio con OCI Speech?

No OCI Speech no tiene cargos de configuración ni compromisos mínimos de servicio, y no se requiere hardware.

¿Ofrecen horas gratuitas para probar el servicio?

Sí. Ofrecemos cinco horas de transcripción gratuita cada mes por arrendamiento.

¿Cobran más por puntuación o por SRT?

La puntuación es un servicio gratuito al igual que SRT. El almacenamiento de archivos SRT puede aumentar tu tarifa de almacenamiento.

Otras preguntas técnicas

¿Qué dispositivos admitirá OCI Speech?

OCI Speech funciona con cualquier dispositivo de grabación y no es específico de un dispositivo.

Mi archivo no es un archivo WAV. ¿Cómo debo convertir mi archivo a WAV?

Te recomendamos que utilices la utilidad FFmpeg con el siguiente comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Obtengo el siguiente mensaje de error: Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it. ¿Cómo puedo solucionarlo?

Consulta la documentación Configuración de la política de Speech..