Konwersja tekstu mówionego na tekst (STT) i tekstu na tekst mówiony (TTS)

OCI Speech to usługa sztucznej inteligencji, która zarówno konwertuje tekst mówiony na tekst, jak i tekst na tekst mówiony. Dzięki niej można otrzymywać dokładne, znormalizowane tekstowo transkrypcje ze znacznikiem czasu i syntetyzowany głos za pośrednictwem konsoli OCI Console, notatników OCI Data Science i interfejsów API REST, a także interfejsów CLI lub zestawów SDK.

Funkcje OCI Speech

Gotowe modele akustyczne i językowe

OCI Speech wykorzystuje funkcję automatycznego rozpoznawania mowy , która korzysta z mechanizmu uczenia głębokiego w celu stworzenia dokładnej transkrypcji naturalnych rozmów. Zacznij korzystać z gotowych modeli akustycznych i językowych, które znajomości zagadnień z zakresu danologii (nauki o danych).

Analizuj dane z plików audio i wideo

Znajduj, indeksuj i odszyfrowuj dane ukryte w plikach audio. Przetwarzaj nagrane rozmowy głosowe na dane tekstowe do analizy za pomocą usług sztucznej inteligencji. Możesz na przykład użyć funkcji OCI Language, aby wykryć odczucia, i funkcji wykrywania anomalii OCI Speech, aby zidentyfikować szanse na odejście klientów.

Transkrypcja w czasie rzeczywistym

Dostępna obecnie w ograniczonym zakresie funkcja transkrypcji OCI Speech w czasie rzeczywistym umożliwia wysyłanie strumieni audio i uzyskiwanie dokładnej transkrypcji w ciągu kilku sekund.

Synteza tekstu do mowy oparta o sieci neuronowe (TTS)

Dostępna obecnie w ograniczonym zakresie funkcja syntezowania mowy w usłudze OCI Speech pozwala programistom syntetyzować z tekstu w różnych aplikacjach mowę podobną do ludzkiej. Funkcja ta umożliwia konwersacje z klientami, obsługuje wielojęzyczne tłumaczenia głosowe i ułatwia dostęp. Do wyboru są różne głosy, które zwiększają atrakcyjność interakcji.

Asysta techniczna z natywną obsługą wielu języków

Modele ASR OCI Speech umożliwiają transkrypcję tekstu mówionego na tekst w następujących językach: angielskim, hiszpańskim, portugalskim, niemieckim, francuskim, włoskim i hindi. Ponadto funkcja OCI Speech obsługuje również model OpenAI Whisper, który w standardowej konfiguracji obsługuje ponad 57 języków. Dowiedz się więcej o OCI i modelu Whisper.

Diaryzacja w celu zwiększenia czytelności i zrozumienia

OCI Speech obsługuje technikę diarizacji (rozróżniania mówiących) w celu organizowania, analizowania i wydobywania istotnych informacji od wielu mówców.


Zintegrowana usługa transkrypcji

Przestań korzystać z zewnętrznych usług zakresie transkrypcji i uzyskaj większą kontrolę nad swoimi danymi dzięki kompleksowym funkcjom bezpieczeństwa i zgodności z przepisami.

Łatwość integracji

OCI Speech to uniwersalna usługa, która może być wywoływana za pomocą interfejsów REST API, zestawów SDK oraz narzędzia Oracle CLI. Programiści mogą łatwo wdrożyć skalowalną usługę konwersji mowy na tekst bez konieczności posiadania specjalistycznej wiedzy z zakresu danetyki lub samouczenia się maszyn.

Rozwiązanie zbudowane z myślą o bezpieczeństwie i prywatności

Oracle Cloud Infrastructure Speech chroni prywatność klientów. Gotowe modele automatycznego rozpoznawania mowy konwertują ją na tekst, ale nie przechowują żadnych danych na potrzeby treningu, debugowania lub w innych celach.


Zintegrowana usługa transkrypcji

OCI Speech używa własnych modeli i architektury, które umożliwiają szybką konwersję mowy na tekst.

Wynik pewności dla każdego słowa

Dodaliśmy wynik pewności na poziomie każdego słowa, aby ułatwić rozpoznawanie słów, które mogły zostać błędnie zapisane. Za pomocą wyniku pewności słowa można określić obszary wymagające dodatkowej pracy podczas tworzenia aplikacji.

Filtry wulgaryzmów

Dodaliśmy gotowe filtrowanie wyrazów na podstawie dopracowanej listy wulgaryzmów. Można je ukrywać, usuwać lub zaznaczać.


27 kwietnia 2022 r.

Usługa OCI Speech oferuje teraz interpunkcję, napisy dialogowe i modele 8 kHz.

Guy Michaeli, starszy główny menedżer ds. produktów

Z przyjemnością prezentujemy trzy nowe możliwości dla usługi Speech dostępne bez dodatkowych kosztów: natywna obsługa plików audio 8 kHz, obsługa plików wyjściowych w formacie SRT (format pliku z napisami dialogowymi) i automatyczna interpunkcja tekstu wyjściowego. Nowe możliwości są teraz dostępne we wszystkich regionach komercyjnych OCI i stanowią część naszego zobowiązania, aby zapewnić naszym klientom wysokiej jakości, przystępną cenowo usługę transkrypcji.

Przeczytaj cały artykuł

Przypadki użycia OCI Speech

  • Analiza opinii klientów

  • Wyszukiwanie treści i napisy w cyfrowych środkach przekazu

    Automatycznie generuj napisy na platformie OCI dla wszystkich treści tworzonych i przygotowywanych w ramach cyfrowych środków przekazu. Indeksuj swoje treści za pomocą funkcji konwersji mowy na tekst OCI, aby ułatwić ich przeszukiwanie.

  • Centra telefoniczne, analiza rozmów

    OCI Speech może tworzyć transkrypcje rozmów z klientami, aby usprawnić wyszukiwanie i pobieranie informacji. Dzięki łącznemu użyciu narzędzi OCI Language i Anomaly Detection można wykryć odczucia rozmówców, a także zidentyfikować klientów, którzy prawdopodobnie chcą odejść, oraz obszary wymagające dalszego szkolenia pracowników.

Zasoby usługi OCI Speech

Zacznij korzystać z OCI Speech

Bezpłatna chmura Oracle Cloud Free Tier

Twórz, testuj i wdrażaj aplikacje na platformie Oracle Cloud — bezpłatnie.