音声読み上げ(STT)とテキスト読み上げ(TTS)

OCI Speechは、音声をテキストに変換し、テキストから音声を合成するAIサービスです。OCIコンソール、OCI Data Scienceノート・ブック、REST API、およびCLIやSDKを介して、正確な正規化されたテキストとタイムスタンプ付きトランスクリプション、合成された音声を取得します。

AIエキスパートに相談する

オラクルの専門家とともにAIの導入を加速
オラクルが提供するExplore AIワークショップで、AIプロジェクトを次のレベルへ引き上げましょう。本ワークショップでは、オラクルのAI専門家と直接対話し、AIのベストプラクティスを学び、組織内でAIイノベーションを加速させるためのインサイトを得ることができます。

AIワークショップのお申し込み
テキストの音声変換とリアルタイム・トランスクリプション
テキストの音声変換機能とリアルタイム・トランスクリプション機能は、現在、限定的に提供されています。テキストに基づいて合成音声を作成し、正確なトランスクリプションを瞬時に取得する方法をご覧ください。

ブログ投稿を読む
仕組みを見る
一般的なシステム内のコンポーネントがどのように相互作用し、OCI Speech による自然言語の音声認識を実現しているかをご覧ください。

リファレンス・アーキテクチャを見る
OCI Speechを無料で試す
300米ドルのクラウドクレジットを利用して、Oracle Cloud上でアプリケーションを無料で構築、テスト、導入できます。

Oracle Cloud Free Tierを試す

OCI Speechの機能

組込みの音響／言語モデル

OCI Speechは、ディープ・ラーニング・プロセスである自動音声認識を使用して、自然言語の会話を正確に文字化します。現在データ・サイエンスの経験がなくても、組込みの音響モデルと言語モデルを使用して、簡単に利用を開始できます。

オーディオ／ビデオファイルのデータの分析

オーディオファイルに埋め込まれたデータを検索、索引付けし、復号します。記録された音声会話をテキストデータに変換し、AIサービスを使用して分析します。たとえば、OCI Languageでセンチメントを取得し、OCI Speechの異常検出で顧客離れの可能性を特定します。

リアルタイム・トランスクリプション

OCI Speech のリアルタイム・トランスクリプション機能では、音声ストリームを送信してから数秒で正確なトランスクリプションを受け取ることができます。

ニューラルテキストから音声への変換（TTS）

現在、限定的に利用可能なOCI Speechのテキスト音声変換機能により、アプリケーション全体でテキストから人間のようなスピーチを合成することができます。この機能により、顧客との会話、音声による多言語翻訳、およびアクセシビリティの向上が可能になります。さまざまな音声から選んで、対話を強化しましょう。

ネイティブな多言語サポート

OCI Speech ASRモデルは、英語、スペイン語、ポルトガル語、ドイツ語、フランス語、イタリア語およびヒンディー語をサポートしているため、任意の言語でオーディオ・ファイルを文字化できます。また、OCI SpeechはOpenAI Whisperモデルもサポートしています。このモデルでは、57以上の言語がデフォルトでサポートされています。OCIとWhisperモデルの詳細をご覧ください。

読みやすさ、理解しやすさを高めるダイアライゼーション

OCI Speechは、複数のスピーカーから有意義な情報を整理、分析、抽出するためのダイアライゼーションをサポートしています。

統合された文字化サービス

サードパーティの文字化サービスに依存することなく、エンドツーエンドのセキュリティとコンプライアンスでデータをより適切に管理します。

統合が簡単

OCI Speechは、REST API、様々なSDK、Oracle CLIを介して呼び出すことのできる汎用性の高いサービスです。開発者は、データサイエンスやMLの専門知識がなくても、スケーラブルな音声サービスを簡単にデプロイできます。

セキュリティとプライバシーに特化した設計

Oracle Cloud Infrastructure Speechは、顧客のプライバシーを保護します。組込みの自動音声認識モデルは、コンテンツを文字化しますが、トレーニングやデバッグ、その他の目的でデータを格納することはありません。

統合された文字化サービス

OCI Speechは、独自のモデルとアーキテクチャにより、音声をテキストに高速変換できます。

単語ごとの信頼度スコア

誤って文字化された可能性のある単語を特定するために、単語ごとの信頼度スコア機能を追加しました。単語ごとの信頼度スコアを使用することで、アプリケーションを構築する際に、どこに重点を置くべきかを判断できます。

不適切な言葉のフィルタリング

不適切な言葉を厳選してフィルタリングする機能を追加しました。不適切な言葉に対し、マスク、削除、タグ付けのいずれかを選択できます。

当社のリアルタイム音声認識機能により、自然に話しながら正確な文字起こしを行い、途切れることのないスムーズなコミュニケーションが実現します。

オラクル、シニア・プリンシパル・プロダクト・マネージャー、Michael Zhang

ブログ投稿を読む

OCI Speech のユースケース

デジタルメディア・コンテンツ検索とクローズドキャプション

デジタルメディア・サービスによって作成およびキュレートされたすべてのコンテンツについて、OCIプラットフォームでワークフロー内クローズドキャプションを自動的に提供します。OCI Speechを使用してコンテンツに索引付けし、コンテンツ全体を簡単に検索できます。

カスタマーフィードバックおよびコール分析

カスタマコールを文字化し、情報を簡単に検索および取得できるようにします。OCI Languageを使用して、センチメントを検出し、顧客離れやスタッフのトレーニング機会を特定できます。

医療用ディクテーション

リアルタイムの音声文字起こしにより、医師や看護師はどこにいても患者のメモを取ることができます。これにより、効率が向上し、ケアの質と成果が改善されます。

アクセシビリティの向上

Neural Text-to-Speechは、抑揚のある人間らしい音声を高い精度で提供し、アクセシビリティ機能に新たな選択肢をもたらします。

OCI Speechに関するリソース

ドキュメント
- OCI Speechのドキュメント
- OCI Speechリファレンス・アーキテクチャ
関連製品
- OCI Language
  人工知能と機械学習機能により、非構造化テキストの言語を検出し、センチメント分析を行います。
- Oracle Digital Assistant
  アプリケーション用の対話型インタフェースを構築します。

OCI Speechを始めよう

Oracle Cloud Free Tier

Oracle Cloudでアプリケーションを無料で構築、テスト、デプロイしましょう。

Oracle Cloud Free Tierを試す