OpenAI debuts Whisper API for speech-to-text transcription and translation

کے رول آؤٹ کے ساتھ موافق ہونا ChatGPT APIOpenAI نے آج Whisper API شروع کیا، جو اوپن سورس کا ایک میزبان ورژن ہے۔ سرگوشی اسپیچ ٹو ٹیکسٹ ماڈل جو کمپنی نے ستمبر میں جاری کیا۔

$0.006 فی منٹ کی قیمت پر، Whisper ایک خودکار اسپیچ ریکگنیشن سسٹم ہے جس کے بارے میں OpenAI کا دعویٰ ہے کہ متعدد زبانوں میں \”مضبوط\” ٹرانسکرپشن کے ساتھ ساتھ ان زبانوں سے انگریزی میں ترجمہ بھی ممکن ہے۔ یہ M4A، MP3، MP4، MPEG، MPGA، WAV اور WEBM سمیت متعدد فارمیٹس میں فائلیں لیتا ہے۔

لاتعداد تنظیموں نے انتہائی قابل اسپیچ ریکگنیشن سسٹمز تیار کیے ہیں، جو گوگل، ایمیزون اور میٹا جیسے ٹیک جنات کے سافٹ ویئر اور خدمات کے مرکز میں ہیں۔ لیکن جو چیز Whisper کو مختلف بناتی ہے وہ یہ ہے کہ اسے ویب سے اکٹھے کیے گئے 680,000 گھنٹے کے کثیر لسانی اور \”ملٹی ٹاسک\” ڈیٹا پر تربیت دی گئی تھی، OpenAI کے صدر اور چیئرمین گریگ بروک مین کے مطابق، جو منفرد لہجوں، پس منظر کے شور اور تکنیکی جارجن کی بہتر شناخت کا باعث بنتا ہے۔

\”ہم نے ایک ماڈل جاری کیا، لیکن یہ حقیقت میں پورے ڈویلپر ماحولیاتی نظام کو اس کے ارد گرد تعمیر کرنے کے لیے کافی نہیں تھا،\” Brockman نے کل سہ پہر TechCrunch کے ساتھ ایک ویڈیو کال میں کہا۔ \”Whisper API وہی بڑا ماڈل ہے جسے آپ اوپن سورس حاصل کر سکتے ہیں، لیکن ہم نے انتہائی حد تک بہتر بنایا ہے۔ یہ بہت، بہت تیز اور انتہائی آسان ہے۔\”

بروک مین کے نقطہ نظر تک، جب آواز کی نقل کی ٹیکنالوجی کو اپنانے والے کاروباری اداروں کی بات آتی ہے تو رکاوٹوں کی راہ میں بہت کچھ ہے۔ 2020 کے اعدادوشمار کے مطابق سروے، کمپنیاں درستگی، لہجہ- یا بولی سے متعلقہ شناختی مسائل اور لاگت کو سرفہرست وجوہات کے طور پر بتاتی ہیں کہ انہوں نے ٹیک ٹو اسپیچ جیسی ٹیک کو قبول نہیں کیا۔

سرگوشی کی اپنی حدود ہیں، اگرچہ – خاص طور پر \”اگلے لفظ\” کی پیشین گوئی کے علاقے میں۔ چونکہ سسٹم کو بہت زیادہ شور مچانے والے ڈیٹا پر تربیت دی گئی تھی، اوپن اے آئی نے خبردار کیا ہے کہ وسپر اپنی نقل میں ایسے الفاظ شامل کر سکتا ہے جو حقیقت میں نہیں بولے گئے تھے – ممکنہ طور پر اس لیے کہ یہ دونوں آڈیو میں اگلے لفظ کی پیشین گوئی کرنے اور آڈیو ریکارڈنگ کو ہی نقل کرنے کی کوشش کر رہے ہیں۔ مزید برآں، Whisper تمام زبانوں میں یکساں طور پر اچھی کارکردگی کا مظاہرہ نہیں کرتا، جب ان زبانوں کے بولنے والوں کی بات آتی ہے جو تربیتی ڈیٹا میں اچھی طرح سے پیش نہیں کی جاتی ہیں تو غلطی کی شرح زیادہ ہوتی ہے۔

بدقسمتی سے، تقریر کی شناخت کی دنیا میں یہ آخری بات کوئی نئی بات نہیں ہے۔ تعصبات نے 2020 کے اسٹینفورڈ کے ساتھ بہترین نظاموں کو بھی طویل عرصے سے دوچار کیا ہے۔ مطالعہ ایمیزون، ایپل، گوگل، آئی بی ایم اور مائیکروسافٹ کے سسٹمز تلاش کرنے میں بہت کم غلطیاں ہوئیں – تقریباً 19% – سیاہ فام صارفین کی نسبت سفید فام صارفین کے ساتھ۔

اس کے باوجود، OpenAI دیکھتا ہے کہ موجودہ ایپس، خدمات، مصنوعات اور ٹولز کو بہتر بنانے کے لیے Whisper کی نقل کی صلاحیتوں کا استعمال کیا جا رہا ہے۔ پہلے سے ہی، AI سے چلنے والی زبان سیکھنے والی ایپ اسپیک ایک نئے درون ایپ ورچوئل بولنے والے ساتھی کو طاقت دینے کے لیے Whisper API کا استعمال کر رہی ہے۔

اگر اوپن اے آئی اسپیچ ٹو ٹیکسٹ مارکیٹ میں بڑے پیمانے پر داخل ہوسکتا ہے، تو یہ مائیکروسافٹ کی حمایت یافتہ کمپنی کے لیے کافی منافع بخش ہوسکتا ہے۔ کے مطابق ایک رپورٹ کے مطابق، اس حصے کی مالیت 2026 تک 5.4 بلین ڈالر ہو سکتی ہے، جو 2021 میں 2.2 بلین ڈالر سے زیادہ ہے۔

\”ہماری تصویر یہ ہے کہ ہم واقعی یہ عالمگیر ذہانت بننا چاہتے ہیں،\” بروک مین نے کہا۔ \”ڈبلیومیں واقعی میں، بہت لچکدار طریقے سے، آپ کے پاس کسی بھی قسم کا ڈیٹا لینے کے قابل ہونا چاہتا ہوں — جس قسم کا کام آپ پورا کرنا چاہتے ہیں — اور اس توجہ پر ایک قوت ضرب بننا چاہتے ہیں۔



>Source link>

>>Join our Facebook page From top right corner. <<

Leave a Reply

Your email address will not be published. Required fields are marked *