音声のテキスト変換(STT)とテキストの音声変換(TTS)

OCI Speechは、音声をテキストに変換し、テキストから音声を合成するAIサービスです。OCIコンソール、OCI Data Scienceノート・ブック、REST API、およびCLIやSDKを介して、正確な正規化されたテキストとタイムスタンプ付きトランスクリプション、合成された音声を取得します。

OCI Speechの機能

組込みの音響/言語モデル

OCI Speechは、ディープ・ラーニング・プロセスである自動音声認識を使用して、自然言語の会話を正確に文字化します。現在データ・サイエンスの経験がなくても、組込みの音響モデルと言語モデルを使用して、簡単に利用を開始できます。

オーディオ/ビデオファイルのデータの分析

オーディオファイルに埋め込まれたデータを検索、索引付けし、復号します。記録された音声会話をテキストデータに変換し、AIサービスを使用して分析します。たとえば、OCI Languageでセンチメントを取得し、OCI Speechの異常検出で顧客離れの可能性を特定します。

リアルタイム・トランスクリプション

現在、限定的に利用可能なOCI Speechのリアルタイム・トランスクリプション機能では、音声ストリームを送信してから数秒で正確なトランスクリプションを受け取ることができます。

ニューラルテキストから音声への変換(TTS)

現在、限定的に利用可能なOCI Speechのテキスト音声変換機能により、アプリケーション全体でテキストから人間のようなスピーチを合成することができます。この機能により、顧客との会話、音声による多言語翻訳、およびアクセシビリティの向上が可能になります。さまざまな音声から選んで、対話を強化しましょう。

ネイティブな多言語サポート

OCI Speech ASRモデルは、英語、スペイン語、ポルトガル語、ドイツ語、フランス語、イタリア語およびヒンディー語をサポートしているため、任意の言語でオーディオ・ファイルを文字化できます。また、OCI SpeechはOpenAI Whisperモデルもサポートしています。このモデルでは、57以上の言語がデフォルトでサポートされています。OCIとWhisperモデルの詳細をご覧ください

読みやすさ、理解しやすさを高めるダイアライゼーション

OCI Speechは、複数のスピーカーから有意義な情報を整理、分析、抽出するためのダイアライゼーションをサポートしています。


統合された文字化サービス

サードパーティの文字化サービスに依存することなく、エンドツーエンドのセキュリティとコンプライアンスでデータをより適切に管理します。

統合が簡単

OCI Speechは、REST API、様々なSDK、Oracle CLIを介して呼び出すことのできる汎用性の高いサービスです。開発者は、データサイエンスやMLの専門知識がなくても、スケーラブルな音声サービスを簡単にデプロイできます。

セキュリティとプライバシーに特化した設計

Oracle Cloud Infrastructure Speechは、顧客のプライバシーを保護します。組込みの自動音声認識モデルは、コンテンツを文字化しますが、トレーニングやデバッグ、その他の目的でデータを格納することはありません。


統合された文字化サービス

OCI Speechは、独自のモデルとアーキテクチャにより、音声をテキストに高速変換できます。

単語ごとの信頼度スコア

誤って文字化された可能性のある単語を特定するために、単語ごとの信頼度スコア機能を追加しました。単語ごとの信頼度スコアを使用することで、アプリケーションを構築する際に、どこに重点を置くべきかを判断できます。

不適切な言葉のフィルタリング

不適切な言葉を厳選してフィルタリングする機能を追加しました。不適切な言葉に対し、マスク、削除、タグ付けのいずれかを選択できます。


当社のリアルタイム音声認識機能により、自然に話しながら正確な文字起こしを行い、途切れることのないスムーズなコミュニケーションが実現します。
オラクル、シニア・プリンシパル・プロダクト・マネージャー、Michael Zhang

OCI Speech のユースケース

デジタルメディア・コンテンツ検索とクローズドキャプション

デジタルメディア・サービスによって作成およびキュレートされたすべてのコンテンツについて、OCIプラットフォームでワークフロー内クローズドキャプションを自動的に提供します。OCI Speechを使用してコンテンツに索引付けし、コンテンツ全体を簡単に検索できます。

カスタマーフィードバックおよびコール分析

カスタマコールを文字化し、情報を簡単に検索および取得できるようにします。OCI Languageを使用して、センチメントを検出し、顧客離れやスタッフのトレーニング機会を特定できます。

医療用ディクテーション

リアルタイムの音声文字起こしにより、医師や看護師はどこにいても患者のメモを取ることができます。これにより、効率が向上し、ケアの質と成果が改善されます。

アクセシビリティの向上

Neural Text-to-Speechは、抑揚のある人間らしい音声を高い精度で提供し、アクセシビリティ機能に新たな選択肢をもたらします。

OCI Speechに関するリソース

OCI Speechを始めよう


Oracle Cloud Free Tier

Oracle Cloudでアプリケーションを無料で構築、テスト、デプロイしましょう。