语音转文本 (STT) 和文本转语音 (TTS)

OCI Speech 是一项 AI 服务,既能将语音转录为文本,又能将文本合成为语音。您可以通过 OCI 控制台、OCI Data Science 记事本、REST API 以及 CLI 或 SDK 进行准确、文本规范化、带时间戳的转写和语音合成。

OCI Speech 的特性

预构建声学和语言模型

OCI Speech 采用深度学习流程 — 自动语音识别技术,可准确转写自然对话。即使不了解数据科学,您也可以通过预构建的声学和语言模型轻松使用该服务。

分析音频和视频文件中的数据

搜索音频文件中的数据,为其编索引,并进行分析。将录制的音频对话转为文本数据,并使用 AI 服务进行分析。例如,使用 OCI Language 检索客户情绪,并使用 OCI Speech 的异常检测功能识别客户流失的可能性。

实时转录

OCI Speech 的实时转录功能目前处于限定供应状态,支持您在几秒钟内发送音频流并接收准确的转录文本。

神经文本转语音 (TTS)

OCI Speech 的文本转语音功能现已限定供应,可帮助您跨应用从文本合成类似人类的语音。此功能支持客户对话、多语言语音翻译并改善了无障碍性。您可以从各种声音中进行选择以增强交互。

原生多语言支持

OCI Speech ASR 模型支持英语、西班牙语、葡萄牙语、德语、法语、意大利语和印地语,允许您使用自己偏好的语言转录音频文件。此外,OCI Speech 还支持 OpenAI Whisper 模型,该模型提供 57 多种现成的语言支持。了解有关 OCI 和 Whisper 模型的更多信息

通过声纹分割聚类功能提高可读性和理解能力

OCI Speech 支持声纹分割,可组织、分析来自多个发言者的语音,然后从中提取有意义的信息。


一体化转写服务

无需依赖第三方转写产品,提供端到端的安全性和合规性流程,助您更好地控制数据。

易于集成

OCI Speech 是一个通用服务,可通过 REST API、不同的 SDK 和 Oracle CLI 进行调用。开发人员即使不具备数据科学或机器学习专业知识,也可轻松部署可扩展的语音识别服务。

专为保护安全和隐私而打造

Oracle Cloud Infrastructure Speech 可保障客的隐私。预构建的自动语音识别模型可转写您的内容,但不会存储任何数据用于训练、调试或其他目的。


一体化转写服务

OCI Speech 使用专有模型和架构,快速将语音转换为文本。

每个单词的置信度评分

新增的单词级别的置信度评分可帮助您识别可能被错误转写的单词。您还可以使用单词置信度评分来确定构建应用时的重点。

粗言秽语过滤器

使用精选的粗言秽语列表,添加预建的单词过滤功能。您可以屏蔽、删除或标记粗言秽语。


Oracle 的实时语音识别功能有助于确保您的语音在您自然说话时准确地转录成文本,从而实现无缝且不间断的通信。
甲骨文公司高级首席产品经理 Michael Zhang

OCI Speech 的使用场景

数字媒体内容搜索和隐藏式字幕

自动在 OCI 平台上针对数字媒体服务创建和定制的所有内容提供工作流隐藏式字幕。使用 OCI Speech 为内容编索引,实现轻松搜索。

客户反馈和呼叫分析

将客户通话转录成文本,以便于搜索和检索信息。使用 OCI Language 检测客户情绪,有助于识别客户流失和员工培训机会。

医学听写

通过实时转录功能,医生和护士可以随时随地捕捉患者笔记,从而提高效率并改善护理和疗效。

提高可访问性

神经文本转语音功能提供高精度、类似人类的带有语调的语音,为无障碍功能提供更多选项。

OCI Speech 资源

赶快行动


Oracle Cloud 免费套餐

免费在 OCI 上构建、测试和部署应用。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。