OCI Speech 是一項 AI 服務,可將語音轉錄成文字,以及從文字合成語音。該服務應用自動語音辨識技術,將音訊內容即時或以非同步方式轉換為文字。此神經網路型文字轉語音功能會根據您的輸入文字產生聽起來自然的語音。您可以輕鬆呼叫 API,將 OCI Speech 的預先訓練模型整合至其應用程式。OCI Speech 可透過主控台和 REST API 以及 CLI 或 SDK,用於提供準確、標準化文字且帶時間戳記的轉錄或合成語音。您也可以在 OCI Data Science 記事本工作階段中使用 OCI Speech。使用 OCI Speech,您可以篩選髒話、取得單一字詞與完整轉錄內容的可信度分數,以及更多功能。
如果您需要快速準確且具備時間戳記的轉錄服務,OCI Speech 會是您最好的選擇。如果您使用 OCI 來儲存音訊檔案,您更可享有低延遲,且無須支付與轉錄相關聯的網路費用。最新的文字轉語音和即時語音轉文字功能目前限量供應,可提供額外的功能來與您的應用程式整合。
若要開始使用,請登入以建立您的第一份轉錄稿或深入瞭解本服務。
我們目前支援以檔案為基礎的非同步轉錄,目前,Oracle 限量提供即時轉錄功能。
下列語言具備預先訓練的模型,可提供轉錄服務:英文、西班牙文、葡萄牙文、德文、法文、義大利文和印度文。我們也支援 OpenAI Whisper 模型,能以超過 57 種支援的現成語言進行非同步檔案轉錄。
不會。我們只會轉錄您的內容,但不會保留任何檔案資訊。
與其他轉錄服務相同,輸出品質取決於輸入音訊檔案的品質。講者的口音、背景雜音、切換不同語言、使用混合語言 (例如西英混合語),以及多人同時說話等都會影響轉錄品質。我們也會持續努力改善服務效能,為所有輸入和講者提供更準確的轉錄內容。
目前無法做到,但此功能即將推出。
我們支援單聲道 16 位元 PCM WAV 音訊檔案,取樣率為 16 kHz。我們也支援以下媒體格式,並會在轉錄前將其轉換成 PCM WAV:
您也可以在提交工作前轉換檔案,以降低延遲。建議您在對音訊進行轉碼時使用 Audacity (GUI) 或 FFmpeg (指令行)。
我們支援 JSON (預設) 與 SRT (作為選項時無須進一步付費)。
我們的計費精確,這表示轉錄或語音合成每小時收費美金 0.5 元,但彙總的使用量會以秒數來計算。舉例來說,若您上傳了三個檔案,時間長度分別為 10,860 秒、8,575 秒與 9,421 秒,您的月帳單計算方式則會是秒數總和 (28,856) 除以 3,600 (每小時秒數) 並減去 5 (每月免費時數),再乘以美金 0.5 元。換言之,您需要支付美金 1.508 元 ((28,856/3,600 - 5) x 美金 0.50 元 = 美金 1.508 元)。
我們的計費指標是轉錄時數。轉錄時數會測量指定服務月份內所轉錄或合成的音訊時數。
沒有。OCI Speech 沒有任何設定費用或最低服務承諾用量,而且不需要任何硬體。
有。每個租用戶每個月可享有五小時的免費轉錄服務。
標點符號和 SRT 相同,都是免費服務。不過儲存 SRT 檔案可能會增加儲存費用。
OCI Speech 適用於任何錄製裝置,並不限定於特定裝置。
建議您使用 FFmpeg 公用程式搭配下列指令:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。
請參閱 Speech 原則設定文件。