OCI Speech هي خدمة ذكاء اصطناعي تقوم بنسخ الحديث إلى نص وصياغة الحديث من النص. وهي تطبق تقنية التعرف التلقائي على الكلام لتحويل المحتوى القائم على الصوت إلى نص في الوقت الحقيقي أو بشكل غير متزامن. تولد ميزة تحويل النص إلى حديث المستندة إلى الشبكة العصبية صوتًا طبيعيًا يعتمد على نص الإدخال. يمكن للمطورين إجراء مكالمات API بسهولة لدمج نماذج OCI Speech سابقة التدريب في تطبيقاتهم. يمكن استخدام OCI Speech للنشر الدقيق أو المطبوع نصيًا أو ختمًا زمنيًا أو صوتًا اصطناعيًا من خلال وحدة التحكم وواجهات برمجة تطبيقات REST، بالإضافة إلى واجهات CLI أو SDKs. يمكنك أيضًا استخدام OCI Speech في جلسة دفتر ملاحظات OCI Data Science. باستخدام OCI Speech، يمكنك تصفية المسارات الوظيفية، والحصول على درجات الثقة لكل من الكلمات الفردية والنصوص الكاملة، وغير ذلك الكثير.
يجب عليك استخدام OCI Speech إذا كنت بحاجة إلى خدمة نسخ سريعة ودقيقة ومميزة بتوقيت. وإذا كنت تستخدم OCI لتخزين الملفات الصوتية، فيمكنك أيضًا الاستمتاع بزمن انتقال أقل وبدون تكاليف شبكة مرتبطة بالنشر. وتوفر أحدث ميزات تحويل النص إلى حديث والحديث إلى نص في الوقت الفعلي، والتي أصبحت الآن محدودة التوفر، إمكانات إضافية للتكامل مع تطبيقك.
للبدء، سجل الدخول لإنشاء كتابة الحديث الأولى أو قراءة المزيد عن الخدمة.
ندعم حاليًا النسخ غير المتزامن القائم على الملفات. يُقدَّم النَّسْخ في الوقت الفعلي بتوافر محدود في الوقت الحالي.
يأتي النسخ مع نماذج تم تدريبها مُسبقًا للغات التالية: الإنجليزية والإسبانية والبرتغالية. كما ندعم نموذج OpenAI Whisper للنسخ غير المتزامن المستند إلى الملفات مع أكثر من 57 لغة مدعومة فور إخراج الجهاز من عبوته.
لا، ننسخ فحسب المحتوى ولا نحتفظ بأي معلومات من الملف.
مثل أي خدمة نسخ أخرى، تعتمد جودة المخرجات على جودة ملف الصوت المُدخل. يمكن أن تؤثر لهجات المتحدثين وضوضاء الخلفية والتبديل بين اللغات باستخدام لغات الاندماج (مثل إسباني-إنجليزي) والعديد من الأشخاص الذين يتحدثون في وقت واحد على جودة النسخ. كما نعمل باستمرار على تحسين أداء الخدمة لتوفير نسخ أدق لجميع المدخلات والمتحدثين.
ليس حاليًا، ولكن هذه الإمكانية ستتوفر قريبًا.
ندعم ملفات صوتية أحادية القناة و16 بت PCM WAV مع معدل عينة 16 كيلو هرتز. كما نحن ندعم تنسيقات الوسائط التالية وسنقوم بتحويلها إلى PCM WAV قبل النسخ:
يمكنك أيضًا تحويل ملفاتك قبل تقديم الوظائف لتقليل زمن الوصول. نوصي باستخدامAudacity (GUI) أو FFmpeg (سطر الأوامر) لتحويل ترميز الصوت.
ندعم JSON كخيار افتراضي وSRT من دون أي تكاليف إضافية.
نستخدم الفوترة الدقيقة، ما يعني أننا نحملك 0.50 دولار أمريكي لكل ساعة من النسخ أو صياغة الصوت، لكننا نستخدم الثواني لقياس الاستخدام المُجمع. وعلى سبيل المثال، إذا قمت بتحميل ثلاثة ملفات بمدة 10860 ثانية و8575 ثانية و9421 ثانية، فيتم احتساب الفاتورة الشهرية بواسطة مجموع الثواني (28856) مقسومًا على 3600 ثانية (عدد الثواني في الساعة) وناقص 5 (عدد الساعات المجانية في الشهر)، مضروبًا في 0.50 دولار أمريكي. وبعبارة أخرى، سيتم دفع 1.508 دولارات أمريكية أو (28,856/3,600 - 5) × 0.50 دولار أمريكي = 1.508 دولارات أمريكية.
القياس القابل للفوترة لدينا هو ساعة النسخ. تقيس ساعة النسخ عدد ساعات الصوت التي تم نسخها أو تجميعها خلال شهر محدد من الخدمة.
لا. لا يوجد لدى OCI Speech أي رسوم إعداد أو حد أدنى من التزامات الخدمة، ولا توجد أجهزة مطلوبة.
نعم. نقدم 5 ساعات من التسجيل المجاني كل شهر لكل مستأجر.
إن الترقيم هو خدمة مجانية مثل SRT. قد يؤدي تخزين ملفات SRT إلى زيادة رسوم التخزين.
تعمل OCI Speech مع أي جهاز تسجيل، وليست خاصة بجهاز محدد.
نوصي باستخدام البرنامج المساعد FFmpeg مع الأمر التالي: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
اطلع على وثائق إعداد نظام المحادثة..