OCI Speechは、音声をテキストに変換し、テキストから音声を合成するAIサービスです。OCISpeechは、自動音声認識テクノロジーを応用して、音声ベースのコンテンツをリアルタイムまたは非同期にテキストに変換します。このニューラル・ネットワークをベースとするテキスト音声変換機能は、入力されたテキストに基づいて自然な音声を生成します。OCI Speechでは、事前学習済みモデルをアプリケーションに統合するためのAPI呼出しを簡単に実行できます。OCI Speechは、コンソールやREST API、CLIやSDKを介して、正確で正規化されたテキストやタイムスタンプ付きテキストに使用したり、音声を合成したりできます。また、OCI Data Scienceノートブック・セッションでOCI Speechを使用することも可能です。OCI Speechでは、不適切な言葉のフィルタリングや、単一単語と完全なテキストの両方に対する信頼度スコアの取得などが可能です。
迅速、正確、タイムスタンプ付きのトランスクリプション・サービスが必要な場合に、OCI Speechをご利用ください。音声ファイルの保存にOCIを使用している場合、低レイテンシで、文字化に伴うネットワーク・コストもかかりません。最新の音声変換機能とリアルタイムの音声認識機能は、現在は限定的に提供されており、アプリケーションと統合するための追加機能を提供しています。
使用を開始するには、ログインして文字化を行うか、サービスの詳細をお読みください。
現在、ファイルベースの非同期トランスクリプションをサポートしています。リアルタイム・トランスクリプションは、現在、限定的に提供されています。
トランスクリプションには、英語、スペイン語、ポルトガル語、ドイツ語、フランス語、イタリア語、ヒンディー語の言語の事前学習済みモデルが含まれています。また、非同期のファイルベース・トランスクリプション用のOpenAI Whisperモデルもサポートしています。このモデルでは、57以上の言語がデフォルトでサポートされています。
いいえ、ファイルはコンテンツの文字化にのみ使用されます。ファイルから情報を収集することはありません。
他のトランスクリプション・サービスと同様、アウトプットの品質は入力音声ファイルの品質に依存します。スピーカーのアクセントや、雑音、言語の切り替え、融合言語(スパングリッシュなど)の使用、複数の人が同時に話すことなどは、すべてトランスクリプションの品質に影響します。また、オラクルでは、すべての入力とスピーカーに対してより正確なトランスクリプションを提供するために、サービス・パフォーマンスの向上に取り組んでいます。
この機能は現時点では提供されていませんが、近日提供予定です。
サンプル・レート16kHzの単一チャンネル、16ビットのPCM WAVオーディオ・ファイルをサポートしています。また、以下のメディア形式もサポートしており、書き起こし前にPCM WAVに変換します。
ジョブを送信する前にファイルを変換して、レイテンシを短縮することもできます。オーディオのトランスコーディングには、Audacity(GUI)またはFFmpeg(コマンド行)をお薦めします。
JSON(デフォルト)とSRT(追加費用なしのオプション)をサポートしています。
1時間のトランスクリプションまたは音声合成につき0.50ドルが請求されますが、正確な集計のために秒単位で使用量を測定・計算しています。たとえば、10,860秒、8,575秒、9,421秒の3つのファイルをアップロードした場合、月々の請求額は秒数の合計{(28,856秒)÷3,600(1時間の秒数)-5(1か月あたりの無料時間数)}×$0.50で計算されます。つまり、(28,856÷3,600-5)×$0.50 = $1.508となり、$1.508が請求されます。
オラクルの請求メトリックは、トランスクリプション時間です。トランスクリプション時間は、サービス月に文字化または合成された音声時間を測定したものです。
いいえ。OCI Speechにはセットアップ料金や最低利用条件はありません。また、ハードウェアも必要ありません。
はい。毎月1テナンシにつき5時間の無料トランスクリプションを提供しています。
SRTと同様、句読点も無料サービスです。SRTファイルを保存すると、ストレージ料金が高くなる場合があります。
OCI Speechではすべての録音機器が使用できます。特定のタイプの機器に限定されることはありません。
FFmpegユーティリティを次のコマンドで使用することをお薦めします:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。
Speechポリシーの設定に関するドキュメントを参照してください。