FAQ sur la retranscription par l'IA


Généralités

Qu'est-ce qu'Oracle Cloud Infrastructure Speech ?

OCI Speech est un service d'IA qui transcrit la parole en texte et synthétise la parole en texte. Il applique la technologie de reconnaissance vocale automatique pour transformer le contenu audio en texte en temps réel ou de manière asynchrone. La fonction de synthèse vocale par réseau neuronal génère une voix naturelle à partir du texte saisi. Vous pouvez facilement passer des appels d'API pour intégrer les modèles pré-entraînés d'OCI Speech dans vos applications. Grâce à la console, les API REST ainsi que les CLI ou les SDK, OCI Speech peuvent être utilisés pour une transcription précise, normalisée en texte, horodatée ou synthétique. Vous pouvez également utiliser OCI Speech dans une session de bloc-notes d'OCI Data Science. Grâce à OCI Speech, vous pouvez filtrer des grossièretés, obtenir des notes de confiance à la fois pour des mots isolés ou des transcriptions complètes, et bien plus encore.

Pourquoi utiliser OCI Speech ?

Vous devez utiliser OCI Speech si vous avez besoin d'un service de retranscription rapide, précis et horodaté. Si vous utilisez OCI pour stocker vos fichiers audio, vous bénéficierez également de latences plus faibles et ne payerez aucun coût réseau associé à la retranscription. Les nouvelles fonctionnalités de synthèse vocale et de synthèse vocale en temps réel, désormais en disponibilité limitée, offrent des fonctionnalités supplémentaires à intégrer à votre application.

Comment commencer avec OCI Speech ?

Pour commencer, connectez-vous pour créer votre première transcription ou en savoir plus sur le service.

Fonctionnalités

Quels services de retranscription prenez-vous en charge ?

Nous prenons actuellement en charge la retranscription asynchrone basée sur des fichiers. La transcription en temps réel est proposée en disponibilité limitée pour le moment.

Quelles sont les langues actuellement prises en charge ?

La retranscription est proposée avec des modèles prédéfinis pour les langues suivantes : anglais, espagnol, portugais, allemand, français, italien et hindi. Nous prenons également en charge le modèle Whisper d'OpenAI pour la transcription asynchrone de fichiers. Il prend en charge plus de 57 langues par défaut.

Les fichiers que j'ai retranscrits sont-ils utilisés par OCI pour améliorer le service (ou autre chose) ?

Non, nous ne retranscrivons que votre contenu et ne conservons aucune information du fichier.

Que dois-je savoir d'autre sur le service ?

Comme tout autre service de retranscription, la qualité de la sortie dépend de la qualité du fichier audio d'entrée. Les accents des intervenants, les bruits de fond, le passage d'une langue à l'autre, l'utilisation de langues fusionnées (tels que le Franglais) et plusieurs personnes parlant simultanément peuvent avoir des conséquences sur la qualité de la retranscription. Nous travaillons constamment à l'amélioration des performances du service afin de fournir des retranscriptions plus précises pour toutes les entrées et tous les intervenants.

OCI Speech peut-il détecter automatiquement la langue dans le fichier ?

Pas actuellement, mais cette capacité arrive bientôt.

Quels formats de fichier d'entrée prenez-vous en charge ?

Nous prenons en charge les fichiers audio PCM WAV à canal unique 16 bits avec une fréquence d'échantillonnage de 16 kHz. Nous prenons également en charge les formats de média suivants et les convertirons en PCM WAV avant la transcription :

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

Vous pouvez également convertir vos fichiers avant de lancer la tâche afin de réduire la latence. Nous vous recommandons Audacity (interface graphique) ou ffmpeg (ligne de commande) pour le transcodage audio.

Quels formats de sortie prenez-vous en charge ?

Nous prenons en charge JSON comme valeur par défaut et SRT comme option sans frais supplémentaires.

Facturation et tarification

Comment serai-je facturé ?

Nous utilisons une facturation de précision, ce qui signifie que nous vous facturons 0,50 USD pour chaque heure de transcription ou de synthèse vocale, mais nous utilisons les secondes pour mesurer l'utilisation agrégée. Par exemple, si vous chargez trois fichiers avec des durées respectives de 10 860 secondes, 8 575 secondes et 9 421 secondes, votre facture mensuelle sera calculée en divisant la somme de vos secondes (28 856) par 3 600 (nombre de secondes en une heure) et moins 5 (nombre d'heures gratuites par mois), multiplié par 0,50 USD. En d'autres termes, vous serez facturé 1,508 USD ou (28 856/3 600 - 5) x 0,50 USD = 1,508 USD.

Quelle est la mesure facturable pour OCI Speech ?

Notre mesure facturable est l'heure de retranscription. L'heure de retranscription mesure le nombre d'heures d'audio transcrit ou synthétisé pendant un mois donné.

Y a-t-il des frais d'installation ou des engagements de service minimum avec OCI Speech ?

Non, OCI Speech n'a pas de frais d'installation ni d'engagement de service minimum, et aucun matériel n'est requis.

Offrez-vous des heures gratuites pour essayer le service ?

Oui, Nous offrons cinq heures de retranscription gratuite par mois et par location.

Chargez-vous davantage pour la ponctuation ou le seuil de reconnaissance vocale (SRT) ?

La ponctuation est un service gratuit comme le SRT. Le stockage des fichiers SRT peut augmenter vos frais de stockage.

Autres questions techniques

Quels appareils seront pris en charge par OCI Speech ?

OCI Speech fonctionne avec n'importe quel périphérique d'enregistrement et n'est pas spécifique au périphérique.

Mon fichier n'est pas un fichier WAV. Comment convertir mon fichier en WAV ?

Nous vous recommandons d'utiliser l'utilitaire ffmpeg avec la commande suivante : $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Je reçois le message d'erreur suivant : « Le bucket nommé « undefined » n'existe pas dans l'espace de noms <namespace> ou vous n'êtes pas autorisé à y accéder. » Comment résoudre ce problème ?

Reportez-vous à la documentation de configuration des stratégies de Speech.