O OCI Speech é um serviço de IA que transcreve a fala em forma de texto e sintetiza fala a partir de texto. Ele aplica a tecnologia de reconhecimento automático de fala para transformar conteúdo baseado em áudio em texto em tempo real ou de forma assíncrona. O recurso de conversão de texto em fala baseado em rede neural gera uma voz com som natural com base no texto inserido. Você pode facilmente chamar APIs para integrar os modelos pré-treinados do OCI Speech em suas aplicações.. O OCI Speech pode ser usado para transcrições precisas, com texto normalizado e registro de data e hora, ou voz sintética por meio do console e APIs, REST, bem como CLIs ou SDKs. Também é possível usar a OCI Speech em uma sessão padrão do OCI Data Science. A OCI Speech ajuda você a filtrar conteúdos impróprios, obter pontuações de confiabilidade para palavras ou sentenças completas, e muito mais.
Você deve usar o OCI Speech se precisar de um serviço de transcrição rápido, preciso e com marcação de data/hora. Se você estiver usando a OCI para armazenar seus arquivos de áudio, também pode aproveitar latências mais baixas e nenhum custo de rede associado à transcrição. Os recursos mais recentes de conversão de texto em fala e de fala em texto em tempo real, agora com disponibilidade limitada, oferecem recursos adicionais para integração com a sua aplicação.
Para começar, faça login para criar sua primeira transcrição ou leia mais sobre o serviço.
No momento, oferecemos suporte à transcrição assíncrona baseada em arquivo. A transcrição em tempo real é oferecida com disponibilidade limitada no momento.
A transcrição vem com modelos pré-treinados para os seguintes idiomas: inglês, espanhol, português, alemão, francês, italiano e hindi. Também oferecemos suporte ao modelo OpenAI Whisper para transcrição assíncrona baseada em arquivo com suporte imediato em mais de 57 idiomas.
Não. Apenas transcrevemos o seu conteúdo e não mantemos nenhuma informação do arquivo.
Como qualquer outro serviço de transcrição, a qualidade da saída depende da qualidade do arquivo de áudio de entrada. Os sotaques dos falantes, os ruídos de fundo, a alternância entre idiomas, o uso de idiomas de fusão (como o espanglês) e várias pessoas falando simultaneamente podem afetar a qualidade da transcrição. Também estamos trabalhando constantemente para melhorar o desempenho do serviço e fornecer transcrições mais precisas para todas as entradas e falantes.
Atualmente não, mas esse recurso estará disponível em breve.
Oferecemos suporte a arquivos de áudio PCM WAV de 16 bits e canal único com uma taxa de amostragem de 16 kHz. Também oferecemos suporte aos seguintes formatos de mídia e os converteremos para PCM WAV antes de transcrever:
Você também pode converter seus arquivos antes de enviar tarefas para reduzir a latência. Recomendamos Audacity (GUI) ou FFmpeg (linha de comando) para transcodificação de áudio.
Oferecemos suporte a JSON como padrão e SRT como opção sem custos adicionais.
Usamos um faturamento de precisão, o que significa que cobramos US$ 0,50 por cada hora de transcrição ou síntese de voz, mas usamos segundos para medir o uso agregado. Por exemplo, se você enviar três arquivos com durações respectivas de 10.860 segundos, 8.575 segundos e 9.421 segundos, sua fatura mensal será calculada pela soma dos seus segundos (28.856) dividida por 3.600 (o número de segundos em uma hora) e menos 5 (o número de horas gratuitas por mês), multiplicado por US$ 0,50. Em outras palavras, você será cobrado US$ 1,508 ou (28.856/3.600 - 5) x US$ 0,50 = US$ 1,508.
Nossa métrica faturável é a hora de transcrição. A hora de transcrição mede o número de horas de áudio transcritas ou sintetizadas durante um determinado mês do serviço.
Não. O OCI Speech não tem nenhuma taxa de instalação ou compromisso de serviço mínimo, e não há necessidade de hardware.
Sim. Oferecemos cinco horas de transcrição gratuita todos os meses por tenancy.
A pontuação é um serviço gratuito, assim como o SRT. Armazenar arquivos SRT pode aumentar sua taxa de armazenamento.
O OCI Speech funciona com qualquer dispositivo de gravação e não é específico dele.
Recomendamos usar o utilitário FFmpeg com o seguinte comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Consulte a documentação da política do OCI Speech.