Tag: language

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Sarfaraz Ahmed uses inappropriate language in PSL exhibition match

    کوئٹہ گلیڈی ایٹرز نے اتوار کو پشاور زلمی کے خلاف نمائشی میچ تین رنز سے جیتا، لیکن یہ میدان پر گرما گرم تبادلہ کے اپنے حصے کے بغیر ختم نہیں ہوا۔

    زلمی کی اننگز کے چوتھے اوور کے دوران، جب ایمل خان کو محمد حارث نے باؤنڈری کا نشانہ بنایا، سرفراز کو پس منظر میں اپنے ساتھی ساتھی کو گالی دیتے ہوئے سنا جا سکتا ہے۔

    پشاور صرف 3.4 اوورز میں 40-0 تک پہنچ گیا تھا، اور سرفراز اس کارروائی سے بظاہر ناراض تھے۔

    سرفراز کو اس سے قبل سابق کرکٹرز کے ساتھ ساتھ کرکٹ شائقین کی جانب سے بھی کھیل کے دوران اپنے ہی کھلاڑیوں کے خلاف جذباتی انداز میں تنقید کا نشانہ بنایا گیا تھا۔

    دیکھیں: افتخار نے وہاب ریاض کے ایک اوور میں چھ چھکے لگائے

    2021 میں کرکٹ پاکستان کے ساتھ ایک انٹرویو میں لاہور قلندرز کے ہیڈ کوچ عاقب جاوید نے انکشاف کیا کہ انہوں نے ایک بار امپائر علیم ڈار سے وکٹ کیپر کے رویے کی شکایت کی تھی۔

    عاقب نے کہا، \”میں نے علیم ڈار کو بتایا کہ سرفراز کوئٹہ کے باؤلرز کے ساتھ اسٹمپ کے پیچھے سے کیا سلوک کر رہے ہیں۔ مجھے نہیں معلوم کہ وہ ان بدسلوکی اور توہین کو کیسے برداشت کرتے ہیں۔ کھلے عام کھلاڑیوں کے ساتھ بدسلوکی کرنے پر ان پر کوئی ضابطہ اخلاق لاگو نہیں ہوتا؟\”۔

    سرفراز کو گزشتہ سال نیشنل ٹی ٹوئنٹی کپ میں بلوچستان کے خلاف کھیلتے ہوئے نامناسب زبان استعمال کرنے پر جرمانہ کیا گیا تھا۔

    پوائنٹ ریجن میں کاشف بھٹی کے آؤٹ ہونے کے بعد وکٹ کیپر نے گالی گلوچ کی۔

    پاکستان کرکٹ بورڈ (پی سی بی) نے سرفراز پر آرٹیکل 2.3 کے تحت فرد جرم عائد کی تھی جس میں کہا گیا ہے کہ \”سنگین فحاشی کا استعمال\”۔

    سرفراز 13 فروری سے شروع ہونے والی ایچ بی ایل پاکستان سپر لیگ کے آئندہ ایڈیشن میں مسلسل آٹھویں سیزن میں گلیڈی ایٹرز کی قیادت کریں گے۔

    نوٹ: مصنف ٹویٹس پر @zaidhassan89





    Source link