الأسئلة الشائعة المتعلقة بتحويل الكلام إلى نص باستخدام الذكاء الاصطناعي


عام

ما المقصود بـ Oracle Cloud Infrastructure Speech؟

OCI Speech هي خدمة ذكاء اصطناعي تقوم بنسخ الحديث إلى نص وصياغة الحديث من النص. وهي تطبق تقنية التعرف التلقائي على الكلام لتحويل المحتوى القائم على الصوت إلى نص في الوقت الحقيقي أو بشكل غير متزامن. تولد ميزة تحويل النص إلى حديث المستندة إلى الشبكة العصبية صوتًا طبيعيًا يعتمد على نص الإدخال. يمكن للمطورين إجراء مكالمات API بسهولة لدمج نماذج OCI Speech سابقة التدريب في تطبيقاتهم. يمكن استخدام OCI Speech للنشر الدقيق أو المطبوع نصيًا أو ختمًا زمنيًا أو صوتًا اصطناعيًا من خلال وحدة التحكم وواجهات برمجة تطبيقات REST، بالإضافة إلى واجهات CLI أو SDKs. يمكنك أيضًا استخدام OCI Speech في جلسة دفتر ملاحظات OCI Data Science. باستخدام OCI Speech، يمكنك تصفية المسارات الوظيفية، والحصول على درجات الثقة لكل من الكلمات الفردية والنصوص الكاملة، وغير ذلك الكثير.

لماذا يجب عليّ استخدام OCI Speech؟

يجب عليك استخدام OCI Speech إذا كنت بحاجة إلى خدمة نسخ سريعة ودقيقة ومميزة بتوقيت. وإذا كنت تستخدم OCI لتخزين الملفات الصوتية، فيمكنك أيضًا الاستمتاع بزمن انتقال أقل وبدون تكاليف شبكة مرتبطة بالنشر. وتوفر أحدث ميزات تحويل النص إلى حديث والحديث إلى نص في الوقت الفعلي، والتي أصبحت الآن محدودة التوفر، إمكانات إضافية للتكامل مع تطبيقك.

كيف يمكنني بدء استخدام OCI Speech؟

للبدء، سجل الدخول لإنشاء كتابة الحديث الأولى أو قراءة المزيد عن الخدمة.

الميزات

ما خدمات النسخ التي تدعمها؟

ندعم حاليًا النسخ غير المتزامن القائم على الملفات. يُقدَّم النَّسْخ في الوقت الفعلي بتوافر محدود في الوقت الحالي.

ما اللغات المدعومة حاليًا؟

يأتي النسخ مع نماذج تم تدريبها مُسبقًا للغات التالية: الإنجليزية والإسبانية والبرتغالية. كما ندعم نموذج OpenAI Whisper للنسخ غير المتزامن المستند إلى الملفات مع أكثر من 57 لغة مدعومة فور إخراج الجهاز من عبوته.

هل الملفات التي قمت بنسخها تستخدمها OCI لتحسين الخدمة (أو لأي شيء آخر)؟

لا، ننسخ فحسب المحتوى ولا نحتفظ بأي معلومات من الملف.

ماذا يجب أن أعرف عن الخدمة؟

مثل أي خدمة نسخ أخرى، تعتمد جودة المخرجات على جودة ملف الصوت المُدخل. يمكن أن تؤثر لهجات المتحدثين وضوضاء الخلفية والتبديل بين اللغات باستخدام لغات الاندماج (مثل إسباني-إنجليزي) والعديد من الأشخاص الذين يتحدثون في وقت واحد على جودة النسخ. كما نعمل باستمرار على تحسين أداء الخدمة لتوفير نسخ أدق لجميع المدخلات والمتحدثين.

هل يمكن لـ OCI Speech اكتشاف اللغة في الملف تلقائيًا؟

ليس حاليًا، ولكن هذه الإمكانية ستتوفر قريبًا.

ما تنسيقات ملفات المدخلات التي تدعمها؟

ندعم ملفات صوتية أحادية القناة و16 بت PCM WAV مع معدل عينة 16 كيلو هرتز. كما نحن ندعم تنسيقات الوسائط التالية وسنقوم بتحويلها إلى PCM WAV قبل النسخ:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

يمكنك أيضًا تحويل ملفاتك قبل تقديم الوظائف لتقليل زمن الوصول. نوصي باستخدام‏Audacity‏ ‏(GUI) أو FFmpeg (سطر الأوامر) لتحويل ترميز الصوت.

ما تنسيقات المخرجات التي تدعمها؟

ندعم JSON كخيار افتراضي وSRT من دون أي تكاليف إضافية.

الفواتير والتسعير

كيف يتم محاسبتي؟

نستخدم الفوترة الدقيقة، ما يعني أننا نحملك 0.50 دولار أمريكي لكل ساعة من النسخ أو صياغة الصوت، لكننا نستخدم الثواني لقياس الاستخدام المُجمع. وعلى سبيل المثال، إذا قمت بتحميل ثلاثة ملفات بمدة 10860 ثانية و8575 ثانية و9421 ثانية، فيتم احتساب الفاتورة الشهرية بواسطة مجموع الثواني (28856) مقسومًا على 3600 ثانية (عدد الثواني في الساعة) وناقص 5 (عدد الساعات المجانية في الشهر)، مضروبًا في 0.50 دولار أمريكي. وبعبارة أخرى، سيتم دفع 1.508 دولارات أمريكية أو (28,856/3,600 - 5) × 0.50 دولار أمريكي = 1.508 دولارات أمريكية.

ما القياس القابل للفوترة لـ OCI Speech؟

القياس القابل للفوترة لدينا هو ساعة النسخ. تقيس ساعة النسخ عدد ساعات الصوت التي تم نسخها أو تجميعها خلال شهر محدد من الخدمة.

هل ثمة أي رسوم إعداد أو التزامات حد أدنى للخدمة مع OCI Speech؟

لا. لا يوجد لدى OCI Speech أي رسوم إعداد أو حد أدنى من التزامات الخدمة، ولا توجد أجهزة مطلوبة.

هل تقدم أي ساعات مجانية لتجربة الخدمة؟

نعم. نقدم 5 ساعات من التسجيل المجاني كل شهر لكل مستأجر.

هل تفرض رسومًا إضافية على الترقيم أم على SRT؟

إن الترقيم هو خدمة مجانية مثل SRT. قد يؤدي تخزين ملفات SRT إلى زيادة رسوم التخزين.

أسئلة تقنية أخرى

ما الأجهزة التي سيتم دعمها بواسطة OCI Speech؟

تعمل OCI Speech مع أي جهاز تسجيل، وليست خاصة بجهاز محدد.

الملف الخاص بي ليس ملف WAV. كيف يمكنني تحويل ملفي إلى WAV؟

نوصي باستخدام البرنامج المساعد FFmpeg مع الأمر التالي: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

أتلقى رسالة الخطأ التالية: إما أن الحزمة المسماة "غير معرفة" غير موجودة في مساحة الاسم <namespace> أو أنك غير مصرح لك بالوصول إليها. كيف يمكنني إصلاح ذلك؟

اطلع على وثائق إعداد نظام المحادثة..