OCI Speech is een AI-service die zowel spraak naar tekst transcribeert als spraak uit tekst synthetiseert. Het past automatische spraakherkenningstechnologie toe om audiogebaseerde content in realtime of asynchroon om te zetten naar tekst. De op neurale netwerken gebaseerde tekst-naar-spraakfunctie genereert een natuurlijk klinkende stem op basis van ingevoerde tekst. U kunt eenvoudig API-aanroepen doen om de vooraf getrainde modellen van OCI Speech in hun applicaties te integreren. OCI Speech kan worden gebruikt voor nauwkeurige, tekstgenormaliseerde transcriptie met tijdstempel of synthetische spraak via de console en REST API's, maar ook via CLI's of SDK's. U kunt OCI Speech ook in een OCI Data Science Notebooksessie gebruiken. Met behulp van OCI Speech kunt u onder andere grof taalgebruik filteren en betrouwbaarheidsscores ophalen voor zowel losse woorden als complete transcripties.
Gebruik OCI Speech als u een snelle, exacte en tijdgestempelde transcriptieservice nodig hebt. Als u OCI gebruikt om uw audiobestanden op te slaan, kunt u ook profiteren van een lagere latentie en geen netwerkkosten voor transcriptie. De nieuwste tekst-naar-spraak en realtime spraak-naar-tekst functies, nu beperkt beschikbaar, bieden extra mogelijkheden om met uw applicatie te integreren.
Meld u aan om uw eerste transcriptie te maken of lees meer over de service om te beginnen.
We bieden momenteel een asynchrone transcriptie op basis van bestanden. Real-time transcriptie is op dit moment beperkt beschikbaar.
Transcriptie wordt geleverd met voorgetrainde modellen voor de volgende talen: Engels, Spaans, Portugees, Duits, Frans, Italiaans en Hindi. We ondersteunen ook het OpenAI Whisper-model voor asynchrone bestandsgebaseerde transcriptie met meer dan 57 talen die out of the box worden ondersteund.
Nee. We transcriberen alleen uw content en bewaren geen informatie uit het bestand.
Net als bij elke andere transcriptieservice hangt de kwaliteit van de uitvoer af van de kwaliteit van het ingevoerde audiobestand. Accenten, achtergrondgeluiden, het wisselen tussen talen, het gebruik van mengtalen (zoals Spanglish) en mensen die door elkaar praten, kunnen allemaal van invloed zijn op de kwaliteit van de transcriptie. We zijn ook voortdurend bezig de service beter te laten presteren om exactere transcripties te bieden voor alle inputs en sprekers.
Momenteel niet, maar deze mogelijkheid wordt binnenkort beschikbaar.
We ondersteunen single-channel, 16-bit PCM WAV audiobestanden met een 16 kHz sample rate. We ondersteunen ook de volgende mediaformaten en converteren deze naar PCM WAV voordat we transcriberen:
U kunt ook uw bestanden converteren voordat u taken verstuurt om de latentie te verminderen. We adviseren Audacity (GUI) of ffmpeg (command line) voor audiotranscodering.
We ondersteunen JSON als standaard en SRT als optie zonder extra kosten.
We gebruiken precisiefacturering, wat betekent dat we u $ 0,50 in rekening brengen voor elk uur transcriptie of spraaksynthese, maar we rekenen in seconden om het totale gebruik te meten. Als u bijvoorbeeld drie bestanden uploadt met een respectievelijke duur van 10.860 seconden, 8.575 seconden en 9.421 seconden, wordt uw maandelijkse factuur berekend door de som van uw seconden (28.856) te delen door 3.600 (het aantal seconden in een uur) en min 5 (het aantal vrije uren per maand), vermenigvuldigd met $0,50. Met andere woorden, u betaalt $ 1,508 of (28.856/3.600 - 5) x $ 0,50 = $ 1,508.
We noemen onze facturabele eenheid "transcriptie-uur". Het transcriptie-uur meet het aantal audio-uren dat is getranscribeerd of gesynthetiseerd tijdens een bepaalde maand van de service.
Nee. OCI Speech heeft geen setupkosten of minimale serviceverplichtingen en er is geen hardware vereist.
Ja. We bieden elke maand vijf gratis transcriptie-uren per tenancy.
Interpunctie is een gratis service, net als SRT. Het bewaren van SRT-bestanden kan uw opslagkosten verhogen.
OCI Speech werkt met elk opnameapparaat en is niet apparaatspecifiek.
We raden aan het hulpprogramma FFmpeg te gebruiken met het volgende commando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Zie voor meer informatie: Documentatie over het instellen van het Speech-beleid.