AI Speech to Text, veelgestelde vragen


Algemeen

Wat is Oracle Cloud Infrastructure Speech?

OCI Speech is een AI-service die zowel spraak naar tekst transcribeert als spraak uit tekst synthetiseert. Het past automatische spraakherkenningstechnologie toe om audiogebaseerde content in realtime of asynchroon om te zetten naar tekst. De op neurale netwerken gebaseerde tekst-naar-spraakfunctie genereert een natuurlijk klinkende stem op basis van ingevoerde tekst. U kunt eenvoudig API-aanroepen doen om de vooraf getrainde modellen van OCI Speech in hun applicaties te integreren. OCI Speech kan worden gebruikt voor nauwkeurige, tekstgenormaliseerde transcriptie met tijdstempel of synthetische spraak via de console en REST API's, maar ook via CLI's of SDK's. U kunt OCI Speech ook in een OCI Data Science Notebooksessie gebruiken. Met behulp van OCI Speech kunt u onder andere grof taalgebruik filteren en betrouwbaarheidsscores ophalen voor zowel losse woorden als complete transcripties.

Waarom zou ik OCI Speech gebruiken?

Gebruik OCI Speech als u een snelle, exacte en tijdgestempelde transcriptieservice nodig hebt. Als u OCI gebruikt om uw audiobestanden op te slaan, kunt u ook profiteren van een lagere latentie en geen netwerkkosten voor transcriptie. De nieuwste tekst-naar-spraak en realtime spraak-naar-tekst functies, nu beperkt beschikbaar, bieden extra mogelijkheden om met uw applicatie te integreren.

Hoe ga ik aan de slag met OCI Speech?

Meld u aan om uw eerste transcriptie te maken of lees meer over de service om te beginnen.

Kenmerken

Welke transcriptieservices worden er ondersteund?

We bieden momenteel een asynchrone transcriptie op basis van bestanden. Real-time transcriptie is op dit moment beperkt beschikbaar.

Welke talen worden er nu al ondersteund?

Transcriptie wordt geleverd met voorgetrainde modellen voor de volgende talen: Engels, Spaans, Portugees, Duits, Frans, Italiaans en Hindi. We ondersteunen ook het OpenAI Whisper-model voor asynchrone bestandsgebaseerde transcriptie met meer dan 57 talen die out of the box worden ondersteund.

Gebruikt OCI mijn transcripties om de service te verbeteren (of voor iets anders)?

Nee. We transcriberen alleen uw content en bewaren geen informatie uit het bestand.

Wat moet ik nog meer weten over de service?

Net als bij elke andere transcriptieservice hangt de kwaliteit van de uitvoer af van de kwaliteit van het ingevoerde audiobestand. Accenten, achtergrondgeluiden, het wisselen tussen talen, het gebruik van mengtalen (zoals Spanglish) en mensen die door elkaar praten, kunnen allemaal van invloed zijn op de kwaliteit van de transcriptie. We zijn ook voortdurend bezig de service beter te laten presteren om exactere transcripties te bieden voor alle inputs en sprekers.

Kan OCI Speech de taal in het bestand vanzelf detecteren?

Momenteel niet, maar deze mogelijkheid wordt binnenkort beschikbaar.

Welke bestandsindelingen kunnen als input dienen?

We ondersteunen single-channel, 16-bit PCM WAV audiobestanden met een 16 kHz sample rate. We ondersteunen ook de volgende mediaformaten en converteren deze naar PCM WAV voordat we transcriberen:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

U kunt ook uw bestanden converteren voordat u taken verstuurt om de latentie te verminderen. We adviseren Audacity (GUI) of ffmpeg (command line) voor audiotranscodering.

Welke output-indelingen worden er ondersteund?

We ondersteunen JSON als standaard en SRT als optie zonder extra kosten.

Facturering en prijzen

Hoe reken ik af?

We gebruiken precisiefacturering, wat betekent dat we u $ 0,50 in rekening brengen voor elk uur transcriptie of spraaksynthese, maar we rekenen in seconden om het totale gebruik te meten. Als u bijvoorbeeld drie bestanden uploadt met een respectievelijke duur van 10.860 seconden, 8.575 seconden en 9.421 seconden, wordt uw maandelijkse factuur berekend door de som van uw seconden (28.856) te delen door 3.600 (het aantal seconden in een uur) en min 5 (het aantal vrije uren per maand), vermenigvuldigd met $0,50. Met andere woorden, u betaalt $ 1,508 of (28.856/3.600 - 5) x $ 0,50 = $ 1,508.

Wat is de facturabele eenheid voor OCI Speech?

We noemen onze facturabele eenheid "transcriptie-uur". Het transcriptie-uur meet het aantal audio-uren dat is getranscribeerd of gesynthetiseerd tijdens een bepaalde maand van de service.

Zijn er setupkosten of minimale serviceverplichtingen met OCI Speech?

Nee. OCI Speech heeft geen setupkosten of minimale serviceverplichtingen en er is geen hardware vereist.

Biedt u gratis uren om de service uit te proberen?

Ja. We bieden elke maand vijf gratis transcriptie-uren per tenancy.

Rekent u meer voor interpunctie of SRT?

Interpunctie is een gratis service, net als SRT. Het bewaren van SRT-bestanden kan uw opslagkosten verhogen.

Andere technische vragen

Welke apparaten worden ondersteund door OCI Speech?

OCI Speech werkt met elk opnameapparaat en is niet apparaatspecifiek.

Mijn bestand is geen WAV-bestand. Hoe moet ik mijn bestand naar WAV converteren?

We raden aan het hulpprogramma FFmpeg te gebruiken met het volgende commando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Ik krijg de volgende foutmelding: Bucket met de naam 'niet gedefinieerd' bestaat niet in de naamruimte <namespace> of u bent niet bevoegd om toegang te krijgen. Hoe kan ik dat oplossen?

Zie voor meer informatie: Documentatie over het instellen van het Speech-beleid.

Oracle-chatbot
Disconnected