AI Speech to Textのよくある質問


全般

Oracle Cloud Infrastructure Speechについて教えてください。

OCI Speechは、音声をテキストに変換し、テキストから音声を合成するAIサービスです。OCISpeechは、自動音声認識テクノロジーを応用して、音声ベースのコンテンツをリアルタイムまたは非同期にテキストに変換します。このニューラル・ネットワークをベースとするテキスト音声変換機能は、入力されたテキストに基づいて自然な音声を生成します。OCI Speechでは、事前学習済みモデルをアプリケーションに統合するためのAPI呼出しを簡単に実行できます。OCI Speechは、コンソールやREST API、CLIやSDKを介して、正確で正規化されたテキストやタイムスタンプ付きテキストに使用したり、音声を合成したりできます。また、OCI Data Scienceノートブック・セッションでOCI Speechを使用することも可能です。OCI Speechでは、不適切な言葉のフィルタリングや、単一単語と完全なテキストの両方に対する信頼度スコアの取得などが可能です。

OCI Speechを使う理由を教えてください。

迅速、正確、タイムスタンプ付きのトランスクリプション・サービスが必要な場合に、OCI Speechをご利用ください。音声ファイルの保存にOCIを使用している場合、低レイテンシで、文字化に伴うネットワーク・コストもかかりません。最新の音声変換機能とリアルタイムの音声認識機能は、現在は限定的に提供されており、アプリケーションと統合するための追加機能を提供しています。

OCI Speechを使い始めるにはどうすればよいですか?

使用を開始するには、ログインして文字化を行うか、サービスの詳細をお読みください

特徴

サポートしているトランスクリプション・サービスは何ですか?

現在、ファイルベースの非同期トランスクリプションをサポートしています。リアルタイム・トランスクリプションは、現在、限定的に提供されています。

現在サポートしている言語を教えてください。

トランスクリプションには、英語、スペイン語、ポルトガル語、ドイツ語、フランス語、イタリア語、ヒンディー語の言語の事前学習済みモデルが含まれています。また、非同期のファイルベース・トランスクリプション用のOpenAI Whisperモデルもサポートしています。このモデルでは、57以上の言語がデフォルトでサポートされています。

文字化に使用したファイルを、OCIがサービス向上のため(またはその他の目的のため)に使用することはありますか?

いいえ、ファイルはコンテンツの文字化にのみ使用されます。ファイルから情報を収集することはありません。

サービスについて、他に知っておくべきことはありますか?

他のトランスクリプション・サービスと同様、アウトプットの品質は入力音声ファイルの品質に依存します。スピーカーのアクセントや、雑音、言語の切り替え、融合言語(スパングリッシュなど)の使用、複数の人が同時に話すことなどは、すべてトランスクリプションの品質に影響します。また、オラクルでは、すべての入力とスピーカーに対してより正確なトランスクリプションを提供するために、サービス・パフォーマンスの向上に取り組んでいます。

OCI Speechは、ファイルの言語を自動的に検出できますか?

この機能は現時点では提供されていませんが、近日提供予定です。

どのような入力ファイル形式をサポートしていますか?

サンプル・レート16kHzの単一チャンネル、16ビットのPCM WAVオーディオ・ファイルをサポートしています。また、以下のメディア形式もサポートしており、書き起こし前にPCM WAVに変換します。

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

ジョブを送信する前にファイルを変換して、レイテンシを短縮することもできます。オーディオのトランスコーディングには、Audacity(GUI)またはFFmpeg(コマンド行)をお薦めします。

サポートしている出力形式は何ですか?

JSON(デフォルト)とSRT(追加費用なしのオプション)をサポートしています。

請求と価格

どのように請求されるのでしょうか?

1時間のトランスクリプションまたは音声合成につき0.50ドルが請求されますが、正確な集計のために秒単位で使用量を測定・計算しています。たとえば、10,860秒、8,575秒、9,421秒の3つのファイルをアップロードした場合、月々の請求額は秒数の合計{(28,856秒)÷3,600(1時間の秒数)-5(1か月あたりの無料時間数)}×$0.50で計算されます。つまり、(28,856÷3,600-5)×$0.50 = $1.508となり、$1.508が請求されます。

OCI Speechの請求メトリックを教えてください。

オラクルの請求メトリックは、トランスクリプション時間です。トランスクリプション時間は、サービス月に文字化または合成された音声時間を測定したものです。

OCI Speechにセットアップ料金や最低利用条件はありますか?

いいえ。OCI Speechにはセットアップ料金や最低利用条件はありません。また、ハードウェアも必要ありません。

サービスを試すための無料時間はありますか?

はい。毎月1テナンシにつき5時間の無料トランスクリプションを提供しています。

句読点やSRTには追加料金がかかりますか?

SRTと同様、句読点も無料サービスです。SRTファイルを保存すると、ストレージ料金が高くなる場合があります。

その他の技術的な質問

OCI Speechでサポートされるデバイスは何ですか?

OCI Speechではすべての録音機器が使用できます。特定のタイプの機器に限定されることはありません。

自分のファイルをWAVファイルに変換するにはどうすればよいですか?

FFmpegユーティリティを次のコマンドで使用することをお薦めします:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

次のエラーメッセージが表示されます。「undefinedという名前のバケットが名前空間<namespace>に存在しないか、アクセス権限がありません。」どうすれば修正できますか?

Speechポリシーの設定に関するドキュメントを参照してください。