OCI Speech to usługa sztucznej inteligencji, która zarówno konwertuje tekst mówiony na tekst, jak i tekst na tekst mówiony. Za pomocą technologii automatycznego rozpoznawania tekstu mówionego przekształca treści audio na tekst w czasie rzeczywistym lub asynchronicznie. Funkcja konwersji tekstu na tekst mówiony oparta na sieci neuronowej generuje naturalnie brzmiący głos na podstawie danych wejściowych. Teraz można z łatwością wykonywać wywołania API w celu dołączenia uprzednio wyszkolonych modeli OCI Speech do swoich aplikacji. OCI Speech można wykorzystać do precyzyjnych, znormalizowanych tekstowo i opisanych znacznikami czasu procesów transkrypcji lub syntezowania mowy za pomocą konsoli i interfejsów REST API, a także interfejsów linii poleceń lub zestawów SDK. OCI Speech można również zastosować w sesji notatnika OCI Data Science. OCI Speech pozwala filtrować obraźliwe słownictwo, a także uzyskiwać oceny pewności zarówno dla pojedynczych słów, jak i dla kompletnych transkrypcji.
OCI Speech sprawdza się, gdy potrzebna jest szybka, dokładna usługa transkrypcji z sygnaturą czasową. Używanie OCI do przechowywania plików audio może także zmniejszyć opóźnienia i pozwala uniknąć kosztów sieciowych związanych z transkrypcją. Najnowsze funkcje TTS i STT w czasie rzeczywistym, obecnie dostępne w ograniczonym zakresie, zapewniają dodatkowe możliwości integracji z rozwiązaniami użytkownika.
Aby rozpocząć, zaloguj się w celu utworzenia pierwszej transkrypcji lub przeczytaj więcej o tej usłudze.
Obecnie obsługujemy asynchroniczną transkrypcję opartą na plikach. Transkrypcja w czasie rzeczywistym jest obecnie dostępna w ograniczonym zakresie.
Usługa transkrypcji zawiera wstępnie przeszkolone modele dla następujących języków: angielski, hiszpański, portugalski, niemiecki, francuski, włoski i hindi. Korzystamy również z modelu OpenAI Whisper do asynchronicznej transkrypcji opartej na plikach z obsługą ponad 57 języków w standardowej konfiguracji.
Nie. Wykonujemy tylko transkrypcję treści i nie przechowujemy żadnych informacji z pliku.
Jak w każdej innej usłudze transkrypcji, jakość wyjściowa zależy od jakości wejściowego pliku audio. Na jakość transkrypcji mogą wpływać akcenty wypowiadających się osób, hałas w tle, przełączanie się między językami, mieszanie języków (np. łączenie angielskiego z hiszpańskim) i jednoczesne wypowiedzi kilku osób. Ponadto na bieżąco doskonalimy naszą usługę, aby zapewnić dokładniejsze transkrypcje dla wszystkich danych wejściowych i tekstów mówionych.
Funkcja te będzie dostępna wkrótce.
Obsługujemy jednokanałowe, 16-bitowe pliki audio PCM WAV z częstotliwością próbkowania 16 kHz. Ponadto obsługujemy następujące formaty multimediów i przed transkrypcją konwertujemy je do formatu PCM WAV:
Aby zmniejszyć opóźnienia, można także przekonwertować pliki przed przesłaniem zadań. Do transkodowania dźwięku polecamy narzędzia Audacity (GUI) lub FFmpeg (linia poleceń).
Obsługujemy formaty JSON (jako domyślny) i SRT (jako opcję bez żadnych dodatkowych kosztów).
Używamy precyzyjnego fakturowania, co oznacza, że naliczamy 0,50 USD za każdą godzinę transkrypcji lub syntezowania mowy, ale używamy sekund do pomiaru zagregowanego korzystania. Jeśli na przykład zostaną wysłane trzy pliki o czasach trwania 10 860 sekund, 8575 sekund i 9421 sekund, to miesięczna opłata wyniesie sumę sekund (28 856) podzieloną przez 3600 (liczbę sekund w godzinie), pomniejszoną o 5 (liczba bezpłatnych godzin w miesiącu) i pomnożoną przez 0,50 USD. Naliczymy w ten sposób 1508 USD, bo (28,856/3,600 - 5) x 0,50 USD = 1508 USD.
Wystawiamy faktury na podstawie godziny transkrypcji. Godzina transkrypcji służy do mierzenia liczby godzin transkrypcji audio lub syntezowania mowy w danym miesiącu korzystania z usługi.
Nie. W przypadku OCI Speech nie są pobierane żadne opłaty konfiguracyjne ani minimalne zobowiązania dotyczące korzystania z tej usługi. Nie jest też wymagany żaden sprzęt.
Tak. Oferujemy pięć godzin bezpłatnej transkrypcji co miesiąc na dzierżawę.
Interpunkcja jest bezpłatna, tak samo jak format SRT. Przechowywanie plików SRT może zwiększyć opłatę za przechowywanie.
Funkcja OCI Speech współdziała z dowolnym urządzeniem rejestrującym i nie jest specyficzna dla danego urządzenia.
Zalecamy używanie narzędzia FFmpeg z następującym poleceniem: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Zobacz dokument Konfiguracja zasad mowy.
Rozważasz zakup?
Zadzwoń do działu sprzedażyCzat z działem sprzedażyProblemy dotyczące kont, subskrypcji i promocji
Zacznij rozmowęPotrzebujesz asysty technicznej lub innego rodzaju pomocy?
Zobacz opcje pomocy