OCI Speech est un service d'IA qui transcrit la parole en texte et synthétise la parole en texte. Il applique la technologie de reconnaissance vocale automatique pour transformer le contenu audio en texte en temps réel ou de manière asynchrone. La fonction de synthèse vocale par réseau neuronal génère une voix naturelle à partir du texte saisi. Vous pouvez facilement passer des appels d'API pour intégrer les modèles pré-entraînés d'OCI Speech dans vos applications. Grâce à la console, les API REST ainsi que les CLI ou les SDK, OCI Speech peuvent être utilisés pour une transcription précise, normalisée en texte, horodatée ou synthétique. Vous pouvez également utiliser OCI Speech dans une session de bloc-notes d'OCI Data Science. Grâce à OCI Speech, vous pouvez filtrer des grossièretés, obtenir des notes de confiance à la fois pour des mots isolés ou des transcriptions complètes, et bien plus encore.
Vous devez utiliser OCI Speech si vous avez besoin d'un service de retranscription rapide, précis et horodaté. Si vous utilisez OCI pour stocker vos fichiers audio, vous bénéficierez également de latences plus faibles et ne payerez aucun coût réseau associé à la retranscription. Les nouvelles fonctionnalités de synthèse vocale et de synthèse vocale en temps réel, désormais en disponibilité limitée, offrent des fonctionnalités supplémentaires à intégrer à votre application.
Pour commencer, connectez-vous pour créer votre première transcription ou en savoir plus sur le service.
Nous prenons actuellement en charge la retranscription asynchrone basée sur des fichiers. La transcription en temps réel est proposée en disponibilité limitée pour le moment.
La retranscription est proposée avec des modèles prédéfinis pour les langues suivantes : anglais, espagnol, portugais, allemand, français, italien et hindi. Nous prenons également en charge le modèle Whisper d'OpenAI pour la transcription asynchrone de fichiers. Il prend en charge plus de 57 langues par défaut.
Non, nous ne retranscrivons que votre contenu et ne conservons aucune information du fichier.
Comme tout autre service de retranscription, la qualité de la sortie dépend de la qualité du fichier audio d'entrée. Les accents des intervenants, les bruits de fond, le passage d'une langue à l'autre, l'utilisation de langues fusionnées (tels que le Franglais) et plusieurs personnes parlant simultanément peuvent avoir des conséquences sur la qualité de la retranscription. Nous travaillons constamment à l'amélioration des performances du service afin de fournir des retranscriptions plus précises pour toutes les entrées et tous les intervenants.
Pas actuellement, mais cette capacité arrive bientôt.
Nous prenons en charge les fichiers audio PCM WAV à canal unique 16 bits avec une fréquence d'échantillonnage de 16 kHz. Nous prenons également en charge les formats de média suivants et les convertirons en PCM WAV avant la transcription :
Vous pouvez également convertir vos fichiers avant de lancer la tâche afin de réduire la latence. Nous vous recommandons Audacity (interface graphique) ou ffmpeg (ligne de commande) pour le transcodage audio.
Nous prenons en charge JSON comme valeur par défaut et SRT comme option sans frais supplémentaires.
Nous utilisons une facturation de précision, ce qui signifie que nous vous facturons 0,50 USD pour chaque heure de transcription ou de synthèse vocale, mais nous utilisons les secondes pour mesurer l'utilisation agrégée. Par exemple, si vous chargez trois fichiers avec des durées respectives de 10 860 secondes, 8 575 secondes et 9 421 secondes, votre facture mensuelle sera calculée en divisant la somme de vos secondes (28 856) par 3 600 (nombre de secondes en une heure) et moins 5 (nombre d'heures gratuites par mois), multiplié par 0,50 USD. En d'autres termes, vous serez facturé 1,508 USD ou (28 856/3 600 - 5) x 0,50 USD = 1,508 USD.
Notre mesure facturable est l'heure de retranscription. L'heure de retranscription mesure le nombre d'heures d'audio transcrit ou synthétisé pendant un mois donné.
Non, OCI Speech n'a pas de frais d'installation ni d'engagement de service minimum, et aucun matériel n'est requis.
Oui, Nous offrons cinq heures de retranscription gratuite par mois et par location.
La ponctuation est un service gratuit comme le SRT. Le stockage des fichiers SRT peut augmenter vos frais de stockage.
OCI Speech fonctionne avec n'importe quel périphérique d'enregistrement et n'est pas spécifique au périphérique.
Nous vous recommandons d'utiliser l'utilitaire ffmpeg avec la commande suivante : $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Reportez-vous à la documentation de configuration des stratégies de Speech.