人工智慧語音轉文字常見問題


一般問題

Oracle Cloud Infrastructure Speech 是什麼?

OCI Speech 是一項 AI 服務,可將語音轉錄成文字,以及從文字合成語音。該服務應用自動語音辨識技術,將音訊內容即時或以非同步方式轉換為文字。此神經網路型文字轉語音功能會根據您的輸入文字產生聽起來自然的語音。您可以輕鬆呼叫 API,將 OCI Speech 的預先訓練模型整合至其應用程式。OCI Speech 可透過主控台和 REST API 以及 CLI 或 SDK,用於提供準確、標準化文字且帶時間戳記的轉錄或合成語音。您也可以在 OCI Data Science 記事本工作階段中使用 OCI Speech。使用 OCI Speech,您可以篩選髒話、取得單一字詞與完整轉錄內容的可信度分數,以及更多功能。

為什麼應該使用 OCI Speech?

如果您需要快速準確且具備時間戳記的轉錄服務,OCI Speech 會是您最好的選擇。如果您使用 OCI 來儲存音訊檔案,您更可享有低延遲,且無須支付與轉錄相關聯的網路費用。最新的文字轉語音和即時語音轉文字功能目前限量供應,可提供額外的功能來與您的應用程式整合。

如何開始使用 OCI Speech?

若要開始使用,請登入以建立您的第一份轉錄稿深入瞭解本服務

功能

有哪些轉錄服務受到支援?

我們目前支援以檔案為基礎的非同步轉錄,目前,Oracle 限量提供即時轉錄功能。

目前支援哪些語言?

下列語言具備預先訓練的模型,可提供轉錄服務:英文、西班牙文、葡萄牙文、德文、法文、義大利文和印度文。我們也支援 OpenAI Whisper 模型,能以超過 57 種支援的現成語言進行非同步檔案轉錄。

OCI 是否會使用我轉錄的檔案來改善服務 (或用於其他項目)?

不會。我們只會轉錄您的內容,但不會保留任何檔案資訊。

關於此服務,還有哪些其他資訊我需要瞭解?

與其他轉錄服務相同,輸出品質取決於輸入音訊檔案的品質。講者的口音、背景雜音、切換不同語言、使用混合語言 (例如西英混合語),以及多人同時說話等都會影響轉錄品質。我們也會持續努力改善服務效能,為所有輸入和講者提供更準確的轉錄內容。

OCI Speech 會自動偵測檔案語言嗎?

目前無法做到,但此功能即將推出。

支援的輸入格式有哪些?

我們支援單聲道 16 位元 PCM WAV 音訊檔案,取樣率為 16 kHz。我們也支援以下媒體格式,並會在轉錄前將其轉換成 PCM WAV:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

您也可以在提交工作前轉換檔案,以降低延遲。建議您在對音訊進行轉碼時使用 Audacity (GUI) 或 FFmpeg (指令行)。

支援的輸出格式有哪些?

我們支援 JSON (預設) 與 SRT (作為選項時無須進一步付費)。

計費與定價

計費方式為何?

我們的計費精確,這表示轉錄或語音合成每小時收費美金 0.5 元,但彙總的使用量會以秒數來計算。舉例來說,若您上傳了三個檔案,時間長度分別為 10,860 秒、8,575 秒與 9,421 秒,您的月帳單計算方式則會是秒數總和 (28,856) 除以 3,600 (每小時秒數) 並減去 5 (每月免費時數),再乘以美金 0.5 元。換言之,您需要支付美金 1.508 元 ((28,856/3,600 - 5) x 美金 0.50 元 = 美金 1.508 元)。

OCI Speech 的計費指標是什麼?

我們的計費指標是轉錄時數。轉錄時數會測量指定服務月份內所轉錄或合成的音訊時數。

OCI Speech 有任何設定費用或最低服務承諾用量嗎?

沒有。OCI Speech 沒有任何設定費用或最低服務承諾用量,而且不需要任何硬體。

是否有免費時數可試用服務?

有。每個租用戶每個月可享有五小時的免費轉錄服務。

我是否需要針對標點符號或 SRT 支付更多費用?

標點符號和 SRT 相同,都是免費服務。不過儲存 SRT 檔案可能會增加儲存費用。

其他技術問題

OCI Speech 支援哪些裝置?

OCI Speech 適用於任何錄製裝置,並不限定於特定裝置。

我的檔案不是 WAV 檔,應該如何將檔案轉換為 WAV?

建議您使用 FFmpeg 公用程式搭配下列指令:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

我收到下列錯誤訊息:命名空間 <namespace> 中不存在名為「未定義」的時段,或您未獲授權存取該時段。我該如何解決?

請參閱 Speech 原則設定文件