Tag: speechtotext

  • OpenAI announces an API for ChatGPT and its Whisper speech-to-text tech

    اوپن اے آئی نے اعلان کیا ہے۔ کہ اب یہ تیسرے فریق کے ڈویلپرز کو ایک API کے ذریعے ChatGPT کو اپنی ایپس اور سروسز میں ضم کرنے کی اجازت دے رہا ہے اور ایسا کرنا اس کے موجودہ لینگویج ماڈلز کے استعمال سے کافی سستا ہوگا۔ کمپنی وسپر بنا رہی ہے، اس کا AI سے چلنے والا اسپیچ ٹو ٹیکسٹ ماڈل، ایک API کے ذریعے استعمال کے لیے دستیاب ہے اور اس کے ڈویلپر کی سروس کی شرائط میں کچھ اہم تبدیلیاں کر رہا ہے۔

    اوپن اے آئی کا کہنا ہے کہ اس کا چیٹ جی پی ٹی API صرف ایک AI سے چلنے والا چیٹ انٹرفیس بنانے سے زیادہ کے لیے استعمال کیا جا سکتا ہے – حالانکہ یہ کئی کمپنیوں کو بھی نمایاں کرتا ہے جو اس مقصد کے لیے اسے استعمال کر رہی ہیں، بشمول سنیپ کی مائی اے آئی فیچرجس کا اعلان اس ہفتے کے شروع میں کیا گیا تھا۔ کمپنی کا کہنا ہے کہ اس کی نئی ماڈل فیملی، جسے gpt-3.5-turbo کہا جاتا ہے، \”بہت سے غیر چیٹ استعمال کے معاملات کے لیے بہترین ماڈل ہے۔\”

    یہ بات قابل غور ہے کہ ماڈل ممکنہ طور پر وہی نہیں ہے جو Bing استعمال کر رہا ہے، جسے مائیکروسافٹ نے \”نیا، اگلی نسل کا OpenAI بڑے لینگویج ماڈل\” کہا ہے جو ChatGPT اور GPT- کے مقابلے میں \”اور بھی تیز، زیادہ درست اور زیادہ قابل\” ہے۔ 3.5 تاہم، یہ دیکھتے ہوئے کہ کمپنی نے OpenAI میں کتنی رقم کی سرمایہ کاری کی ہے، یہ کوئی تعجب کی بات نہیں ہے کہ اسے ٹیک تک رسائی حاصل ہے جو اوسط ڈویلپر کے لیے دستیاب نہیں ہے۔ مائیکروسافٹ بھی ہے اپنی ٹیک کی صحت مند خوراک کا استعمال کرتے ہوئے Bing کے لیے

    OpenAI $0.002 میں 1,000 ٹوکن پیش کر رہا ہے اور اس کا کہنا ہے کہ یہ \”ہمارے موجودہ GPT-3.5 ماڈلز سے 10 گنا سستا ہے،\” جزوی طور پر \”سسٹم کی وسیع اصلاح کی ایک سیریز\” کا شکریہ۔ اگرچہ 1,000 بہت زیادہ لگتا ہے، یہ بات قابل غور ہے کہ API کو جواب دینے کے لیے متن کا ایک ٹکڑا بھیجنے میں کئی ٹوکن لاگت آسکتی ہے۔ (\”ٹوکنز\” ٹیکسٹ کے وہ بلاکس ہیں جن میں سسٹم جملے اور الفاظ کو توڑ دیتا ہے تاکہ یہ اندازہ لگایا جا سکے کہ اس کے بعد کون سا متن نکلنا چاہیے۔)

    کے مطابق اوپن اے آئی کی دستاویزات, \”ChatGPT بہت اچھا ہے!\” چھ ٹوکن لیتا ہے – اس کا API اسے \”چیٹ،\” \”جی،\” \”PT،\” \”اس،\” \”زبردست، اور \”!\” میں تقسیم کرتا ہے۔ کمپنی ایک آلہ فراہم کرتا ہے یہ جانچنے کے لیے کہ متن کی ایک تار کی ترجمانی کرنے کے لیے کتنے ٹوکن درکار ہوں گے اور یہ کہتا ہے کہ انگوٹھے کا ایک عمومی اصول یہ ہے کہ انگریزی میں \”ایک ٹوکن عام طور پر ~4 حروف کے مساوی ہوتا ہے\”۔

    کمپنی کا کہنا ہے کہ ڈویلپرز بھی ChatGPT کی ایک سرشار مثال حاصل کرنے کے قابل ہوں گے اگر وہ API کے ذریعے ڈیٹا کی ایک بڑی مقدار چلا رہے ہیں۔ اس کی پوسٹ میں کہا گیا ہے کہ ایسا کرنے سے آپ کو اس بات پر زیادہ کنٹرول ملے گا کہ آپ کون سا ماڈل استعمال کر رہے ہیں، آپ درخواستوں کا جواب دینے میں کتنا وقت لگانا چاہتے ہیں، اور بوٹ کے ساتھ کتنی دیر تک بات چیت ہو سکتی ہے۔

    جبکہ ChatGPT سب سے زیادہ توجہ حاصل کرنے کا امکان ہے، OpenAI نے Whisper کے لیے ایک اور نئے API کا بھی اعلان کیا ہے، اس کا اسپیچ ٹو ٹیکسٹ ماڈل۔ کمپنی کا کہنا ہے کہ آپ اسے $0.006 فی منٹ کی لاگت سے آڈیو کو نقل کرنے یا ترجمہ کرنے کے لیے استعمال کر سکتے ہیں۔ تکنیکی طور پر، وسپر ماڈل اوپن سورس ہے، لہذا آپ کر سکتے ہیں۔ اسے اپنے ہارڈ ویئر پر بغیر کچھ ادا کیے چلائیں۔. تاہم، اوپن اے آئی کو ممکنہ طور پر زیادہ طاقتور ہارڈ ویئر تک رسائی حاصل ہے، لہذا اگر آپ فوری تبدیلی کی تلاش کر رہے ہیں یا فون جیسے کم طاقت والے آلات پر ٹرانسکرپشن کرنے کی ضرورت ہے، تو API کا استعمال کرنے کا راستہ ہوسکتا ہے۔

    OpenAI کچھ پالیسی تبدیلیوں کا بھی اعلان کر رہا ہے جو اس کے بقول ڈویلپر کے تاثرات پر مبنی ہیں۔ ایک بڑا یہ کہہ رہا ہے کہ وہ اپنے ماڈلز کو تربیت دینے کے لیے API کے ذریعے جمع کرائے گئے ڈیٹا کو مزید استعمال نہیں کرے گا جب تک کہ صارفین واضح طور پر اس استعمال کو ٹھیک نہ کریں۔

    دوسرے لفظوں میں، یہ آپٹ آؤٹ سسٹم سے آپٹ ان کی طرف جا رہا ہے۔ یہ تبدیلی بوٹ میں ملکیتی معلومات ڈالنے کے بارے میں کچھ خدشات کو دور کرنے میں مدد کر سکتی ہے، کیونکہ کچھ کمپنیوں نے ملازمین کو ٹیک کو مکمل طور پر استعمال کرنے سے روک دیا ہے۔ اگر یہ صارف کے ان پٹ سے سیکھ رہا ہے، تو تجارتی رازوں کو داخل کرنا برا خیال ہوگا، کیوں کہ اس بات کا ہمیشہ امکان رہتا ہے کہ وہ اس ڈیٹا کو واپس کسی اور کو بھیج سکتا ہے۔

    کمپنی کا یہ بھی کہنا ہے کہ وہ اپنے اپ ٹائم کو بہتر بنانے پر کام کر رہی ہے اور یہ کہ اس کی \”انجینئرنگ ٹیم کی اولین ترجیح اب پیداوار کے استعمال کے معاملات کا استحکام ہے۔\”

    جب کہ کئی ڈویلپرز نے اپنی ایپس میں چیٹ سروسز کو شامل کرنے کے لیے حل نکالے ہیں – بشمول OpenAI کے ریگولر GPT API کا استعمال کرتے ہوئے، جو کچھ عرصے سے دستیاب ہے – ایک آفیشل ChatGPT API کا تعارف ایسا محسوس ہوتا ہے کہ یہ فلڈ گیٹس کے کھلنے کا لمحہ ہوسکتا ہے۔ جبکہ کمپنیاں کافی ہیں۔ اپنے AI چیٹ بوٹ ماڈلز پر کام کر رہے ہیں۔، اس طرح کی چیز زیادہ تر ڈویلپرز کی پہنچ سے باہر ہے۔ اب، وہ صرف OpenAI کی ٹیک استعمال کر سکیں گے۔



    >Source link>

    >>Join our Facebook page From top right corner. <<

  • OpenAI debuts Whisper API for speech-to-text transcription and translation

    کے رول آؤٹ کے ساتھ موافق ہونا ChatGPT APIOpenAI نے آج Whisper API شروع کیا، جو اوپن سورس کا ایک میزبان ورژن ہے۔ سرگوشی اسپیچ ٹو ٹیکسٹ ماڈل جو کمپنی نے ستمبر میں جاری کیا۔

    $0.006 فی منٹ کی قیمت پر، Whisper ایک خودکار اسپیچ ریکگنیشن سسٹم ہے جس کے بارے میں OpenAI کا دعویٰ ہے کہ متعدد زبانوں میں \”مضبوط\” ٹرانسکرپشن کے ساتھ ساتھ ان زبانوں سے انگریزی میں ترجمہ بھی ممکن ہے۔ یہ M4A، MP3، MP4، MPEG، MPGA، WAV اور WEBM سمیت متعدد فارمیٹس میں فائلیں لیتا ہے۔

    لاتعداد تنظیموں نے انتہائی قابل اسپیچ ریکگنیشن سسٹمز تیار کیے ہیں، جو گوگل، ایمیزون اور میٹا جیسے ٹیک جنات کے سافٹ ویئر اور خدمات کے مرکز میں ہیں۔ لیکن جو چیز Whisper کو مختلف بناتی ہے وہ یہ ہے کہ اسے ویب سے اکٹھے کیے گئے 680,000 گھنٹے کے کثیر لسانی اور \”ملٹی ٹاسک\” ڈیٹا پر تربیت دی گئی تھی، OpenAI کے صدر اور چیئرمین گریگ بروک مین کے مطابق، جو منفرد لہجوں، پس منظر کے شور اور تکنیکی جارجن کی بہتر شناخت کا باعث بنتا ہے۔

    \”ہم نے ایک ماڈل جاری کیا، لیکن یہ حقیقت میں پورے ڈویلپر ماحولیاتی نظام کو اس کے ارد گرد تعمیر کرنے کے لیے کافی نہیں تھا،\” Brockman نے کل سہ پہر TechCrunch کے ساتھ ایک ویڈیو کال میں کہا۔ \”Whisper API وہی بڑا ماڈل ہے جسے آپ اوپن سورس حاصل کر سکتے ہیں، لیکن ہم نے انتہائی حد تک بہتر بنایا ہے۔ یہ بہت، بہت تیز اور انتہائی آسان ہے۔\”

    بروک مین کے نقطہ نظر تک، جب آواز کی نقل کی ٹیکنالوجی کو اپنانے والے کاروباری اداروں کی بات آتی ہے تو رکاوٹوں کی راہ میں بہت کچھ ہے۔ 2020 کے اعدادوشمار کے مطابق سروے، کمپنیاں درستگی، لہجہ- یا بولی سے متعلقہ شناختی مسائل اور لاگت کو سرفہرست وجوہات کے طور پر بتاتی ہیں کہ انہوں نے ٹیک ٹو اسپیچ جیسی ٹیک کو قبول نہیں کیا۔

    سرگوشی کی اپنی حدود ہیں، اگرچہ – خاص طور پر \”اگلے لفظ\” کی پیشین گوئی کے علاقے میں۔ چونکہ سسٹم کو بہت زیادہ شور مچانے والے ڈیٹا پر تربیت دی گئی تھی، اوپن اے آئی نے خبردار کیا ہے کہ وسپر اپنی نقل میں ایسے الفاظ شامل کر سکتا ہے جو حقیقت میں نہیں بولے گئے تھے – ممکنہ طور پر اس لیے کہ یہ دونوں آڈیو میں اگلے لفظ کی پیشین گوئی کرنے اور آڈیو ریکارڈنگ کو ہی نقل کرنے کی کوشش کر رہے ہیں۔ مزید برآں، Whisper تمام زبانوں میں یکساں طور پر اچھی کارکردگی کا مظاہرہ نہیں کرتا، جب ان زبانوں کے بولنے والوں کی بات آتی ہے جو تربیتی ڈیٹا میں اچھی طرح سے پیش نہیں کی جاتی ہیں تو غلطی کی شرح زیادہ ہوتی ہے۔

    بدقسمتی سے، تقریر کی شناخت کی دنیا میں یہ آخری بات کوئی نئی بات نہیں ہے۔ تعصبات نے 2020 کے اسٹینفورڈ کے ساتھ بہترین نظاموں کو بھی طویل عرصے سے دوچار کیا ہے۔ مطالعہ ایمیزون، ایپل، گوگل، آئی بی ایم اور مائیکروسافٹ کے سسٹمز تلاش کرنے میں بہت کم غلطیاں ہوئیں – تقریباً 19% – سیاہ فام صارفین کی نسبت سفید فام صارفین کے ساتھ۔

    اس کے باوجود، OpenAI دیکھتا ہے کہ موجودہ ایپس، خدمات، مصنوعات اور ٹولز کو بہتر بنانے کے لیے Whisper کی نقل کی صلاحیتوں کا استعمال کیا جا رہا ہے۔ پہلے سے ہی، AI سے چلنے والی زبان سیکھنے والی ایپ اسپیک ایک نئے درون ایپ ورچوئل بولنے والے ساتھی کو طاقت دینے کے لیے Whisper API کا استعمال کر رہی ہے۔

    اگر اوپن اے آئی اسپیچ ٹو ٹیکسٹ مارکیٹ میں بڑے پیمانے پر داخل ہوسکتا ہے، تو یہ مائیکروسافٹ کی حمایت یافتہ کمپنی کے لیے کافی منافع بخش ہوسکتا ہے۔ کے مطابق ایک رپورٹ کے مطابق، اس حصے کی مالیت 2026 تک 5.4 بلین ڈالر ہو سکتی ہے، جو 2021 میں 2.2 بلین ڈالر سے زیادہ ہے۔

    \”ہماری تصویر یہ ہے کہ ہم واقعی یہ عالمگیر ذہانت بننا چاہتے ہیں،\” بروک مین نے کہا۔ \”ڈبلیومیں واقعی میں، بہت لچکدار طریقے سے، آپ کے پاس کسی بھی قسم کا ڈیٹا لینے کے قابل ہونا چاہتا ہوں — جس قسم کا کام آپ پورا کرنا چاہتے ہیں — اور اس توجہ پر ایک قوت ضرب بننا چاہتے ہیں۔



    >Source link>

    >>Join our Facebook page From top right corner. <<