Tag: Source

  • Elon Musk suggests Twitter could open source its algorithm \’next week\’

    ایک نیا ٹویٹ ٹویٹر کے مالک ایلون مسک کے ذریعہ تجویز کیا گیا ہے کہ کمپنی اگلے ہفتے کے ساتھ ہی اپنے الگورتھم کو کھولنے کی تیاری کر رہی ہے – جب تک کہ، یقینا، یہ سب ایک مذاق ہے۔ (ان دنوں کوئی نہیں جانتا!) تاہم، مسک طویل عرصے سے اس خیال کے حامی رہے ہیں کہ ٹویٹر کے تجویز کردہ الگورتھم کو اوپن سورس ہونا چاہیے، بار بار بیان کیا وہ عقیدہ اس سے پہلے کہ وہ قیادت سنبھالے۔ سوشل نیٹ ورک اور دوبارہ اپنے ارادے کا اعلان کرتے وقت اپریل 2022 میں ٹویٹر حاصل کرنا۔

    آج ایک ٹویٹ کے جواب میں جس نے اس پر زور دیا کہ وہ ٹویٹر، مسک کو کھولیں۔ تبصرہ کیا \”جب ہمارا الگورتھم اگلے ہفتے اوپن سورس بنایا جائے گا تو سب سے پہلے مایوس ہونے کی تیاری کریں،\” پھر یہ نوٹ کرتے ہوئے کہ \”اس میں تیزی سے بہتری آئے گی۔\”

    اگر سنجیدہ ہے تو، یہ ان اولین وعدوں میں سے ایک ہوگا جس میں ٹویٹر کے الگورتھم کی اوپن سورسنگ کے لیے کسی بھی قسم کی آخری تاریخ کا حوالہ دیا گیا ہے – اور ایک جسے مبصرین ممکنہ طور پر یہ دیکھنے کے لیے دیکھ رہے ہوں گے کہ آیا واقعی پورا ہوا ہے۔

    جب ہمارا الگورتھم اگلے ہفتے اوپن سورس بنا دیا جائے گا تو سب سے پہلے مایوس ہونے کی تیاری کریں، لیکن یہ تیزی سے بہتر ہو جائے گا!

    — ایلون مسک (@elonmusk) 21 فروری 2023

    TechCrunch کے طور پر پال ساورز نے دسمبر میں اطلاع دی۔ٹویٹر پر وسیع تر اوپن سورس کمیونٹی میں دوسروں کی طرف سے بڑھتے ہوئے دباؤ کا سامنا ہے، بشمول ٹویٹر کا متبادل مستوڈون، جس کے استعمال میں مسک کے بعد اضافہ دیکھنے میں آیا۔ قبضہ کرنا اکتوبر میں مائکروبلاگنگ نیٹ ورک کا۔

    دریں اثنا، ٹمبلر کے مالک اور آٹومیٹک کے سی ای او میٹ مولن ویگ نے حال ہی میں کہا کہ ان کی کمپنی کا بلاگنگ پلیٹ فارم اسی ActivityPub پروٹوکول کو اپنائیں جو اب مستوڈون کو طاقت دیتا ہے اور، اس کے فوراً بعد، فلکر کے سی ای او ڈان میک آسکل نے وزن کرنا شروع کیا۔ اسی طرح کی منصوبہ بندی.

    سوشل پلیٹ فارمز کے مواد کی سفارشات کے کام کرنے کے طریقہ کار میں بڑھتی ہوئی سیاسی دلچسپی کے درمیان، اوپن سورسنگ ٹویٹر کا الگورتھم قانون سازوں اور ریگولیٹرز کو بے قابو رکھنے میں بھی مدد کر سکتا ہے۔ نہ صرف امریکی سپریم کورٹ اب دلائل سن رہے ہیں۔ یوٹیوب الگورتھم کے اس کردار کے بارے میں جو صارفین کو ISIS ویڈیوز کی سفارش کرنے میں تھا، لیکن ضرورت کے مطابق بات چیت بھی ہوتی ہے۔ TikTok کی نگرانی کے لیے جو کمپنی کے سامنے آنے والی رپورٹس کے بعد مزید گرم ہو گئے ہیں۔ ہیرا پھیری وائرل رجحانات اور یہاں تک کہ صحافیوں کی جاسوسی کی۔.

    اوپن سورسنگ کے ذریعے، ٹویٹر اسی طرح کی جانچ سے بچنے کی امید کر سکتا ہے۔

    مسک، یقیناً، پہلا ٹویٹر ایگزیکیٹ نہیں ہے جس نے تجویز کیا کہ اوپن سورسنگ آگے بڑھنے کا بہترین راستہ ہوگا۔

    خاص طور پر، ٹویٹر کے شریک بانی اور سابق سی ای او جیک ڈورسی نے گزشتہ سال افسوس کا اظہار کیا تھا۔ کہ ٹویٹر کو پہلے کبھی ایک کمپنی میں تبدیل کیا گیا تھا، یہ کہتے ہوئے کہ، اس کے بجائے، ٹویٹر کو ایک کھلے اور قابل تصدیق پروٹوکول کے طور پر تیار کیا جانا چاہیے تھا۔ اس نے اسی خیال کو مسک کے ساتھ ٹیکسٹ پیغامات پر بھی شیئر کیا، یہ سامنے آیا قانونی دریافت کے عمل کے دوران ٹویٹر کے خلاف مسک کی قانونی چارہ جوئی سے متعلق جب اس نے معاہدے سے باہر نکلنے کی کوشش کی۔ متن میں، ڈورسی نے کہا کہ ٹویٹر کو ایک \”اوپن سورس پروٹوکول، ایک فاؤنڈیشن کی طرف سے فنڈز\” پر مبنی ہونا چاہئے، جس میں مسک نے جواب دیا، \”انتہائی دلچسپ خیال۔\”

    ڈورسی اب اس وژن کو Bluesky کے ساتھ تیار کرنے کے لیے آگے بڑھ رہا ہے، جو ٹوئٹر سے نکلا ہوا ایک اوپن سورس پروجیکٹ ہے جو کہ ADX کے نام سے جانا جاتا ایک وکندریقرت سوشل نیٹ ورکنگ پروٹوکول تیار کر رہا ہے۔ اگرچہ بلوسکی نے ابھی تک اپنی ایپ کو عوامی طور پر لانچ کرنا ہے جو اس کے نظام کو عملی طور پر ظاہر کرے گی، کچھ لوگ جنہوں نے بلوسکی کی ویٹ لسٹ کے لیے سائن اپ کیا تھا، گزشتہ ہفتے ایک سروے کو ای میل کیا گیا تھا جس میں ان سے اپنے اور اپنے پسندیدہ پلیٹ فارم کے بارے میں مزید معلومات طلب کی گئی تھیں۔ ای میل نے اشارہ کیا کہ بلوسکی قابل استعمال ہونے کے قریب ہے، یہ نوٹ کرتے ہوئے کہ انتظار کی فہرست نے 1 ملین سے زیادہ سائن اپ دیکھے ہیں اور لوگوں کو \”آنے والے ہفتوں\” میں بلوسکی ایپ کو جانچنے کے لیے مدعو کیا جائے گا۔





    Source link

    Join our Facebook page
    https://www.facebook.com/groups/www.pakistanaffairs.pk

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Sequoia backs open source data-validation framework Pydantic to commercialize with cloud services

    پائڈینٹکمشہور python Python لائبریری اور اوپن سورس ڈیٹا کی توثیق کا فریم ورک جو دنیا کی کچھ بڑی کمپنیوں کے ذریعہ استعمال کیا جاتا ہے، اس کا ایک نیا تجارتی نام ہے اور اسے سلیکن ویلی کی سب سے منزلہ وینچر کیپیٹل (VC) فرموں میں سے ایک کی حمایت حاصل ہے۔

    Pydantic Services Inc. آج اسٹیلتھ سے $4.7 ملین کے ساتھ ابھری ہے سیکویاسے شرکت کے ساتھ پارٹیک, بے قاعدہ اظہار، اور Zapier کے شریک بانی سمیت فرشتہ سرمایہ کاروں کا ایک میزبان برائن ہیلمگ، ڈی بی ٹی لیبز کے بانی ٹرسٹن ہینڈی، اور سینٹری کے شریک بانی ڈیوڈ کرمر.

    لندن میں مقیم سافٹ ویئر ڈویلپر سیموئل کولون Pydantic کو 2017 میں ایک تجربے کے طور پر شروع کیا، اور درمیانی سالوں میں یہ پروجیکٹ مضبوط سے مضبوط تر ہوتا چلا گیا، ڈویلپرز کے ذریعہ استعمال کیا جاتا ہے۔ بڑی ٹیک کمپنیوں بشمول الفابیٹ، ایمیزون، ایپل، میٹا، اور مائیکروسافٹ میں۔

    اس کی گود لینے کے بڑے حصے میں کارفرما ہے۔ فاسٹ اے پی آئی, APIs بنانے کے لیے ایک ویب فریم ورک جو Pydantic کے ساتھ ہڈ کے نیچے ضم ہوتا ہے۔ تاہم، Pydantic کی ترقی کو زیادہ وسیع پیمانے پر Python کے دھماکے سے بھی منسوب کیا جا سکتا ہے، جس نے 2019 میں جاوا کو پیچھے چھوڑ دیا دوسرا سب سے زیادہ مقبول جاوا اسکرپٹ کے بعد پروگرامنگ زبان۔

    Colvin کے مطابق، Pydantic اب ہر ماہ تقریباً 48 ملین ڈاؤن لوڈز حاصل کرتا ہے اور Nasdaq کی فہرست میں شامل سرفہرست 25 کمپنیوں میں سے 19 اسے استعمال کرتا ہے۔

    \”ابھی، 12% پیشہ ور ویب ڈویلپرز Pydantic کو ایپلی کیشنز کی ایک وسیع رینج میں استعمال کرتے ہیں،\” Colvin نے TechCrunch کو سمجھایا۔ \”جس رفتار سے ڈویلپرز اس ٹول کو استعمال کرنے اور اس پر بھروسہ کرنے کے لیے آئے ہیں اس نے مجھے مسئلہ کا پیمانہ اور ایک بہتر حل کی خواہش ظاہر کی۔\”

    تو، بالکل، کیا ڈویلپرز Pydantic کے لئے استعمال کرتے ہیں؟

    ٹھیک ہے، ایسے بے شمار منظرنامے ہیں جہاں آن لائن ایپلی کیشنز کو صارف کے داخل کردہ ڈیٹا کی قسم کی جانچ اور توثیق کرنے کی ضرورت ہے۔ مثال کے طور پر، ایک سادہ آن لائن فارم جس میں نام، ای میل ایڈریس، اور فون نمبر کی درخواست کی جاتی ہے، اس کے لیے کسی کے غلط قسم کا ڈیٹا داخل کرنے کے امکانات کو کم کرنے کی ضرورت ہوگی، لہذا یہ مددگار ثابت ہوسکتا ہے اگر فارم خود بخود ای میل کے درست ہونے کی جانچ کرسکتا ہے۔ فارمیٹ، یا نام کی فیلڈ کو خالی نہیں چھوڑا جاتا ہے۔ اسی طرح، ایک بینک ٹرانسفر پر کارروائی کرنے کے لیے ایک نیا نظام بنا سکتا ہے جو متعدد اندرونی اور بیرونی ذرائع سے ڈیٹا اکٹھا کرتا ہے — اس نظام کو یہ یقینی بنانا ہوتا ہے کہ کسی بھی رقم کی منتقلی سے پہلے ڈیٹا درست فارمیٹ میں ہو۔

    ایسا کرنے کے لیے، Pydantic Python\’s کو نافذ کرتا ہے۔اشارے ٹائپ کریں۔\’ رن ٹائم پر، جو ڈیٹا کی توثیق کرتا ہے اور ان پٹ کے غلط ہونے پر صارف کے موافق غلطی کے پیغامات پیش کرتا ہے۔

    \”Pydantic ڈویلپرز کو بیرونی، ناقابل اعتماد ڈیٹا پر کارروائی کرنے کی اجازت دیتا ہے اس بات کو یقینی بناتے ہوئے کہ یہ متوقع اسکیما کے مطابق ہے، اور اگر ایسا نہیں ہوتا ہے تو، ایک مددگار غلطی پیدا کرتی ہے،\” کولون نے کہا۔ \”مختصر طور پر، Pydantic حقیقی دنیا کے اعداد و شمار کے ساتھ کام کرنا بہت آسان بناتا ہے، اور اس وجہ سے تیز تر – یہ کام کے کئی گھنٹے بچاتا ہے اور غلطیوں سے بچتا ہے۔\”

    \’Pydantic سے متاثر\’

    کولون کے مطابق پیڈانٹک کے نئے تجارتی ادارے میں نئے ٹولز اور خدمات شامل ہوں گی جو کہ \”پائیڈینٹک لائبریری کے ذریعے طاقت اور حوصلہ افزائی\” دونوں ہیں، جنہوں نے کہا کہ وہ توقع کرتے ہیں کہ اس محنت کے پہلے پھل اس کے بعد دستیاب ہوں گے۔ سال

    \”ہم کلاؤڈ سروسز بنا رہے ہیں، اور اس کے بعد ہمارے پاس فراخدلی سے مفت درجے اور استعمال پر مبنی قیمتیں ہوں گی،\” کولون نے جاری رکھا۔ \”ہم ڈیولپرز کے لیے کلاؤڈ پر ایپلیکیشنز تیار کرنے اور ان کی تعیناتی کو آسان، محفوظ، تیز اور بالآخر زیادہ پر لطف بنائیں گے۔ ہم چھوٹی ایپلی کیشنز یا فنکشنز کے ساتھ انجینئرز کی مدد کرکے شروعات کریں گے، لیکن طویل مدتی ہمارا مقصد تمام ڈویلپرز کے لیے ایک طاقت کا اضافہ کرنا ہے – انہیں ایسے ٹولز دینا جو انہیں ہر ایک کے لیے دنیا کو بہتر بنانے کی اجازت دیتے ہیں۔\”

    لہذا، ہم یہاں جس کے بارے میں بات کر رہے ہیں، کم از کم طویل مدتی میں، ایک پلیٹ فارم کے طور پر ایک خدمت (PaaS) کے مترادف ہے جس طرح کی لائنوں کے ساتھ سیلز فورس کی ملکیت ہیروکو.

    کولون پہلے ہی گزشتہ مارچ سے Pydantic پر کل وقتی کام کر رہا ہے، جس کی مالی اعانت بچت اور کارپوریٹ اسپانسرشپجس میں صنعت کے ہیوی ویٹ جیسے GitHub (Microsoft)، AWS، اور Salesforce سے کیش انفیوژن بھی شامل ہے۔

    اس کے اوپری حصے میں، اوپن سورس پروجیکٹ نے 351 سے زیادہ الگ الگ اداروں، بشمول گوگل، AWS، Visa، اور Stripe کے ڈویلپرز سے اہم کوڈ شراکتیں حاصل کی ہیں۔ یہ Pydantic کو مضبوطی سے پوزیشن میں رکھتا ہے کیونکہ یہ ایک کل وقتی ٹیم بنانے کے لیے نظر آتا ہے – کوئی بھی اوپن سورس پروجیکٹ جس میں اس طرح کے صنعتی گریویٹا ہوتے ہیں عام طور پر اعلی تکنیکی صلاحیتوں کو راغب کرنے کا ایک اچھا موقع ہوتا ہے۔

    \”Pydantic کے شراکت دار کسی بھی بڑی ٹیک کمپنی کی حسد کا باعث ہوں گے، اور میری پہلی چند خدمات وہ تمام ڈویلپر ہوں گی جنہوں نے اس پروجیکٹ میں اہم شراکت کی ہے،\” کولون نے کہا۔ \”درحقیقت، Pydantic کا نیٹ ورک اور شہرت مجھے ایسے انجینئرز کی خدمات حاصل کرنے کی اجازت دیتی ہے جو بصورت دیگر صرف ان کمپنیوں کے لیے دستیاب ہوں گے جن کے بڑے نام اور گہری جیبیں ہیں۔

    Pydantic چھ کی ابتدائی ٹیم کے ساتھ شروع کرے گا، مونٹانا، شکاگو اور برلن میں مقیم پہلے تین انجینئرز کے ساتھ۔

    \”میں ان بہترین ڈویلپرز کی خدمات حاصل کر رہا ہوں جن سے میں اوپن سورس میں ملا ہوں، اس لیے وہ پوری دنیا میں ہیں،\” کولون نے نوٹ کیا۔

    مجھے پیسے دکھاؤ

    سلیکن ویلی کے سب سے مشہور VCs میں سے ایک کی پشت پناہی حاصل کرنا کسی بھی نئے آغاز کے لیے ایک بڑی بغاوت ہے۔ درحقیقت، سیکوئیا نے پہلے ایپل، گوگل، سسکو، ڈراپ باکس، الیکٹرانک آرٹس، پے پال، زوم اور واٹس ایپ کی حمایت کی ہے، جبکہ حالیہ برسوں میں یہ اس کی یورپی کوششوں کو دوگنا کرنا کے ساتھ نئے علاقائی مخصوص شراکت دار.

    آج Sequoia کے میریلیبون آفس سے باہر پانچ شراکت دار ہیں، تاہم، Pydantic میں اس کی سرمایہ کاری کی قیادت امریکی پارٹنر نے کی تھی۔ بوگومل بالکانسکی، جو اوپن سورس فاؤنڈیشن کے ساتھ اسٹارٹ اپس میں سرمایہ کاری کی Sequoia کی تاریخ کو اجاگر کرنے کے خواہاں تھے۔ بشمول MongoDB, سنگم، اور ڈی بی ٹی لیبز (سابقہ ​​فش ٹاؤن تجزیات)۔

    \”Sequoia ایک دہائی سے زیادہ عرصے سے \’ڈیولپر کے عروج\’ کے بارے میں سوچ رہی ہے، اور ہم نے کئی اوپن سورس پر مبنی کمپنیوں کے ساتھ شراکت داری کی ہے،\” Balkansky نے TechCrunch کو جاری کردہ ایک بیان میں کہا۔ \”ہم اس حیرت انگیز ٹریک ریکارڈ کی وجہ سے سیموئیل کے ساتھ شراکت میں بہت پرجوش ہیں جو وسیع پیمانے پر استعمال ہونے والی اور پیاری Python ڈیٹا کی توثیق کی لائبریری Pydantic ہے۔\”

    آج کی خبر Sequoia کے چند ہفتے بعد آئی ہے۔ 195 ملین ڈالر کے فنڈ کا اعلان کیا۔ امریکہ اور یورپ میں بیج مرحلے کے آغاز کے لیے وقف ہے۔ اس کے پانچویں بیج کے فنڈ، سیکوئیا نے یہ بھی کہا کہ اس رقم سے اس کے آرک پروگرام، لندن اور سلیکون ویلی پر مبنی پروگرام میں اسٹارٹ اپس کو فنڈ دینے میں مدد ملے گی۔ اس نے گزشتہ سال شروع کیا امریکہ اور یورپ میں نام نہاد \”آؤٹ لیئر\” اسٹارٹ اپس کو دریافت کرنے اور ان کی سرپرستی کرنے کے لیے۔

    تاہم، Sequoia نے اس بات کی تصدیق نہیں کی کہ آیا Pydantic میں اس کی سرمایہ کاری اس نئے فنڈ سے ہوئی ہے۔

    یہاں یہ بات قابل غور ہے کہ اگرچہ Sequoia یورپی بانیوں میں سرمایہ کاری کرنے کی کوشش کر رہی ہے، نئی Pydantic Services Inc. entity کو امریکہ میں شامل کیا جائے گا، حالانکہ Colvin فی الحال برطانیہ میں ہی رہے گا۔

    کولون نے کہا کہ \”متعدد ابتدائی ملازمین امریکہ میں مقیم ہیں، اور اگر یہ امریکی کمپنی ہے تو انہیں شیئر کے اختیارات دینا آسان ہے۔\” \”اگر کمپنی کامیاب ہو جاتی ہے، تو امکان ہے کہ ہمیں اسے مستقبل میں امریکہ منتقل کرنے کی ضرورت پڑے گی، [and] مجھے بتایا گیا ہے کہ یہ پیچیدہ اور مہنگا ہے، اس لیے امریکہ میں مقیم کمپنی کے ساتھ شروعات کرنا سمجھدار معلوم ہوتا ہے۔\”

    بینک میں 4.7 ملین ڈالر کے ساتھ، کولون نے کہا کہ وہ Pydantic کے کچھ حصوں کو دوبارہ لکھنا جاری رکھے ہوئے ہیں۔ زنگدس گنا کارکردگی میں بہتری کے ذریعے اسے مزید موثر بنانے کی جانب ایک نظریہ کے ساتھ۔ لہذا جب کہ Pydantic 2.0، جو اس سال کے آخر میں ریلیز ہونے والا ہے، اب بھی Python ڈویلپرز کے لیے ایک لائبریری رہے گا، اس کی کچھ بنیادی منطق Rust میں لکھی جائے گی۔

    \”Pydantic کو تیز تر بنانے سے Pydantic پر بنائے گئے ایپلی کیشنز چلانے والے سرورز کے ذریعے استعمال ہونے والی توانائی کی مقدار کو نمایاں طور پر کم کرنا چاہیے،\” کولون نے کہا۔ \”میں اس بات پر پختہ یقین رکھتا ہوں کہ ایپلی کیشن ڈویلپمنٹ کے لیے ازگر ایک بہترین زبان ہے، لیکن لائبریری کے ڈویلپرز کے طور پر، ہم ان لائبریریوں کو نمایاں طور پر بہتر بنا سکتے ہیں – ان ایپلی کیشنز کے لیے ٹولز اور سروسز بنا کر انہیں تیز تر، محفوظ اور کم توانائی سے بھرپور بنا سکتے ہیں۔ رسٹ جیسی تیز اور محفوظ زبانوں کا استعمال۔



    Source link

  • Source: Dutch, Japanese Join US Limits on Chip Tech to China

    ٹرانس پیسیفک ویو | معیشت | مشرقی ایشیا

    معاہدے کا ابھی تک باضابطہ اعلان نہیں کیا گیا ہے، لیکن ایک ذریعے نے اے پی کو بتایا کہ امریکہ، جاپان اور ہالینڈ ایک معاہدے پر آ گئے ہیں۔

    جاپان اور نیدرلینڈز نے امریکہ کے ساتھ ایک معاہدے پر اتفاق کیا ہے تاکہ جدید کمپیوٹر چپس بنانے کے لیے استعمال ہونے والے مواد تک چین کی رسائی کو محدود کیا جا سکے، معاہدے سے واقف ایک شخص نے اتوار کو دی ایسوسی ایٹڈ پریس کو بتایا۔

    اس شخص نے شناخت کرنے سے انکار کر دیا کیونکہ معاہدے کا ابھی تک باضابطہ اعلان نہیں کیا گیا ہے۔ یہ واضح نہیں ہے کہ تینوں فریق کب اس معاہدے کی نقاب کشائی کریں گے۔ وائٹ ہاؤس نے تبصرہ کرنے سے انکار کردیا۔

    بائیڈن انتظامیہ نے اکتوبر میں چین کی ایڈوانس چپس تک رسائی کی صلاحیت کو محدود کرنے کے لیے برآمدی کنٹرول نافذ کیے تھے، جن کا استعمال اس کے بقول ہتھیار بنانے، انسانی حقوق کی خلاف ورزیوں کے ارتکاب اور اس کی فوجی رسد کی رفتار اور درستگی کو بہتر بنانے کے لیے کیا جا سکتا ہے۔ واشنگٹن نے جاپان اور ہالینڈ جیسے اتحادیوں پر زور دیا کہ وہ اس کی پیروی کریں۔

    چین نے غصے سے جواب دیتے ہوئے کہا ہے کہ تجارتی پابندیاں سپلائی چین اور عالمی اقتصادی بحالی میں خلل ڈالیں گی۔

    چین کی وزارت خارجہ کے ترجمان وانگ وین بن نے اس ماہ کے اوائل میں کہا کہ \”ہمیں امید ہے کہ متعلقہ ممالک صحیح کام کریں گے اور کثیرالطرفہ تجارتی نظام کو برقرار رکھنے اور عالمی صنعتی اور سپلائی چین کے استحکام کے تحفظ کے لیے مل کر کام کریں گے۔\” \”یہ ان کے اپنے طویل مدتی مفادات کا تحفظ بھی کرے گا۔\”

    اس مضمون سے لطف اندوز ہو رہے ہیں؟ مکمل رسائی کے لیے سبسکرائب کرنے کے لیے یہاں کلک کریں۔ صرف $5 ایک مہینہ۔

    وائٹ ہاؤس کی قومی سلامتی کونسل کے ترجمان جان کربی نے جمعے کو کہا کہ ڈچ اور جاپانی حکام صدر جو بائیڈن کے قومی سلامتی کے مشیر، جیک سلیوان کی قیادت میں بات چیت کے لیے واشنگٹن میں تھے، جس میں \”ابھرتی ہوئی ٹیکنالوجیز کی حفاظت اور سلامتی\”، یوکرین کی مدد کے لیے کوششوں، اور دیگر مسائل.

    کربی نے کہا، \”ہم شکر گزار ہیں کہ وہ ڈی سی کے پاس آنے اور یہ بات چیت کرنے میں کامیاب رہے۔\”

    کربی نے یہ بتانے سے انکار کر دیا کہ آیا سیمی کنڈکٹر ٹیکنالوجی پر سخت برآمدی کنٹرول پر کوئی معاہدہ ہوا ہے۔ اس مہینے، بائیڈن نے جاپانی وزیر اعظم کشیدا فومیو اور ڈچ وزیر اعظم مارک روٹے سے الگ الگ ملاقات کی تاکہ سخت برآمدی کنٹرول پر زور دیا جا سکے۔

    گزشتہ ہفتے ایک پریس کانفرنس میں، Rutte سے بات چیت کے بارے میں پوچھا گیا لیکن انہوں نے کہا کہ ان میں \”ایسا حساس مواد … اعلیٰ معیار کی ٹیکنالوجی شامل ہے جس کے بارے میں ڈچ حکومت بہت احتیاط سے بات چیت کرنے کا انتخاب کرتی ہے اور اس کا مطلب بہت محدود طریقے سے ہے۔\”

    ویلڈہوون، نیدرلینڈ میں مقیم ASML، جو کہ سیمی کنڈکٹر پروڈکشن کے سازوسامان کی ایک سرکردہ کمپنی ہے، نے اتوار کو کہا کہ اسے معاہدے کے بارے میں کوئی تفصیلات معلوم نہیں ہیں اور نہ ہی اس سے ASML کے کاروبار پر کیا اثر پڑے گا۔

    ASML دنیا کی واحد مشینیں تیار کرنے والی کمپنی ہے جو جدید سیمی کنڈکٹر چپس بنانے کے لیے انتہائی الٹرا وائلٹ لیتھوگرافی کا استعمال کرتی ہے۔ ڈچ حکومت نے 2019 سے ASML کو چین کو اس سامان کی برآمد سے منع کر رکھا ہے، لیکن کمپنی اب بھی چین کو کم معیار کے لتھوگرافی سسٹم بھیج رہی تھی۔

    ASML کے بیجنگ اور شینزین، چین میں تحقیقی اور مینوفیکچرنگ مراکز کے ساتھ ساتھ ہانگ کانگ میں ایک علاقائی ہیڈکوارٹر ہے۔

    امریکی حکام کا کہنا ہے کہ چین اپنے نئے سیمی کنڈکٹر پروڈیوسرز کو تیار کرنے کے لیے بہت زیادہ خرچ کر رہا ہے لیکن اب تک وہ جدید ترین سمارٹ فونز اور دیگر آلات میں استعمال ہونے والی ہائی اینڈ چپس نہیں بنا سکتا۔



    Source link