AI Speech to Text – często zadawane pytania


Informacje ogólne

Co to jest Oracle Cloud Infrastructure Speech?

OCI Speech to usługa sztucznej inteligencji, która zarówno konwertuje tekst mówiony na tekst, jak i tekst na tekst mówiony. Za pomocą technologii automatycznego rozpoznawania tekstu mówionego przekształca treści audio na tekst w czasie rzeczywistym lub asynchronicznie. Funkcja konwersji tekstu na tekst mówiony oparta na sieci neuronowej generuje naturalnie brzmiący głos na podstawie danych wejściowych. Teraz można z łatwością wykonywać wywołania API w celu dołączenia uprzednio wyszkolonych modeli OCI Speech do swoich aplikacji. OCI Speech można wykorzystać do precyzyjnych, znormalizowanych tekstowo i opisanych znacznikami czasu procesów transkrypcji lub syntezowania mowy za pomocą konsoli i interfejsów REST API, a także interfejsów linii poleceń lub zestawów SDK. OCI Speech można również zastosować w sesji notatnika OCI Data Science. OCI Speech pozwala filtrować obraźliwe słownictwo, a także uzyskiwać oceny pewności zarówno dla pojedynczych słów, jak i dla kompletnych transkrypcji.

Dlaczego warto używać usługi OCI Speech?

OCI Speech sprawdza się, gdy potrzebna jest szybka, dokładna usługa transkrypcji z sygnaturą czasową. Używanie OCI do przechowywania plików audio może także zmniejszyć opóźnienia i pozwala uniknąć kosztów sieciowych związanych z transkrypcją. Najnowsze funkcje TTS i STT w czasie rzeczywistym, obecnie dostępne w ograniczonym zakresie, zapewniają dodatkowe możliwości integracji z rozwiązaniami użytkownika.

Jak rozpocząć pracę z OCI Speech?

Aby rozpocząć, zaloguj się w celu utworzenia pierwszej transkrypcji lub przeczytaj więcej o tej usłudze.

Funkcje

Jakie usługi transkrypcji są obsługiwane?

Obecnie obsługujemy asynchroniczną transkrypcję opartą na plikach. Transkrypcja w czasie rzeczywistym jest obecnie dostępna w ograniczonym zakresie.

Jakie języki są obecnie obsługiwane?

Usługa transkrypcji zawiera wstępnie przeszkolone modele dla następujących języków: angielski, hiszpański, portugalski, niemiecki, francuski, włoski i hindi. Korzystamy również z modelu OpenAI Whisper do asynchronicznej transkrypcji opartej na plikach z obsługą ponad 57 języków w standardowej konfiguracji.

Czy pliki transkrybowane w OCI są używane w celu ulepszenia usługi (lub czegokolwiek innego)?

Nie. Wykonujemy tylko transkrypcję treści i nie przechowujemy żadnych informacji z pliku.

Co jeszcze należy wiedzieć o usłudze?

Jak w każdej innej usłudze transkrypcji, jakość wyjściowa zależy od jakości wejściowego pliku audio. Na jakość transkrypcji mogą wpływać akcenty wypowiadających się osób, hałas w tle, przełączanie się między językami, mieszanie języków (np. łączenie angielskiego z hiszpańskim) i jednoczesne wypowiedzi kilku osób. Ponadto na bieżąco doskonalimy naszą usługę, aby zapewnić dokładniejsze transkrypcje dla wszystkich danych wejściowych i tekstów mówionych.

Czy OCI Speech może automatycznie wykryć język w pliku?

Funkcja te będzie dostępna wkrótce.

Które formaty plików wejściowych są obsługiwane?

Obsługujemy jednokanałowe, 16-bitowe pliki audio PCM WAV z częstotliwością próbkowania 16 kHz. Ponadto obsługujemy następujące formaty multimediów i przed transkrypcją konwertujemy je do formatu PCM WAV:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

Aby zmniejszyć opóźnienia, można także przekonwertować pliki przed przesłaniem zadań. Do transkodowania dźwięku polecamy narzędzia Audacity (GUI) lub FFmpeg (linia poleceń).

Które formaty danych wyjściowych są obsługiwane?

Obsługujemy formaty JSON (jako domyślny) i SRT (jako opcję bez żadnych dodatkowych kosztów).

Fakturowanie i ceny

Jak będą naliczane opłaty?

Używamy precyzyjnego fakturowania, co oznacza, że naliczamy 0,50 USD za każdą godzinę transkrypcji lub syntezowania mowy, ale używamy sekund do pomiaru zagregowanego korzystania. Jeśli na przykład zostaną wysłane trzy pliki o czasach trwania 10 860 sekund, 8575 sekund i 9421 sekund, to miesięczna opłata wyniesie sumę sekund (28 856) podzieloną przez 3600 (liczbę sekund w godzinie), pomniejszoną o 5 (liczba bezpłatnych godzin w miesiącu) i pomnożoną przez 0,50 USD. Naliczymy w ten sposób 1508 USD, bo (28,856/3,600 - 5) x 0,50 USD = 1508 USD.

Jaka miara jest używana przy fakturowaniu usługi OCI Speech?

Wystawiamy faktury na podstawie godziny transkrypcji. Godzina transkrypcji służy do mierzenia liczby godzin transkrypcji audio lub syntezowania mowy w danym miesiącu korzystania z usługi.

Czy są jakieś opłaty konfiguracyjne lub minimalne zobowiązania dotyczące korzystania z funkcji OCI Speech?

Nie. W przypadku OCI Speech nie są pobierane żadne opłaty konfiguracyjne ani minimalne zobowiązania dotyczące korzystania z tej usługi. Nie jest też wymagany żaden sprzęt.

Czy dostępne są bezpłatne godziny na wypróbowanie usługi?

Tak. Oferujemy pięć godzin bezpłatnej transkrypcji co miesiąc na dzierżawę.

Czy pobierane są dodatkowe opłaty za interpunkcję lub format SRT?

Interpunkcja jest bezpłatna, tak samo jak format SRT. Przechowywanie plików SRT może zwiększyć opłatę za przechowywanie.

Pozostałe pytania techniczne

Które urządzenia będą obsługiwać OCI Speech?

Funkcja OCI Speech współdziała z dowolnym urządzeniem rejestrującym i nie jest specyficzna dla danego urządzenia.

Mój plik nie jest plikiem WAV. Jak przekonwertować plik na WAV?

Zalecamy używanie narzędzia FFmpeg z następującym poleceniem: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Otrzymuję następujący komunikat o błędzie: Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it (Koszyk o nazwie „undefined” nie istnieje w przestrzeni nazw <namespace> albo nie masz do niego dostępu). Jak to naprawić?

Zobacz dokument Konfiguracja zasad mowy.