Tag: possibly

  • Toyota eyes EV production in U.S. possibly in 2025: source

    [

    Toyota Motor Corp. plans to start producing electric vehicles in the United States possibly in 2025, a source close to the matter said Wednesday, with an eye on the growing market for eco-friendly cars amid tougher environmental regulations.

    The move by the Japanese automaker comes as a U.S. law enacted last year to incentivize the use of green technology requires final assembly of EVs to occur in North America to qualify for tax credits.

    Toyota Motor Corp. President Akio Toyoda speaks at a press conference in Tokyo on Dec. 14, 2021, about investment plans for electric vehicles. (Kyodo) ==Kyodo

    Toyota, which has set a goal of selling 3.5 million EV units worldwide in 2030, is also considering producing vehicles in Europe.

    The production of EVs in the United States — possibly SUVs — is expected to start between 2025 and 2026 at a key manufacturing plant in the southern state of Kentucky, according to the source.

    Toyota, together with trading firm Toyota Tsusho Corp., is also planning to build an automotive battery plant in nearby North Carolina, with operations slated to begin in 2025.

    Toyota launched its first mass-produced electric vehicle known as the bZ4X in May last year. It is manufactured in Japan and China.

    Koji Sato, who is set to become the president of Toyota in April, told a recent press conference that the company will \”speed up EV development\” but also continue to offer a broad range of electrified vehicles, including EVs and hybrids.


    Related coverage:

    Toyota to develop advanced EV in 2026, says next president

    Toyota profit falls despite record sales as rising costs bite

    FOCUS: Toyota CEO taps younger successor amid paradigm shift in industry






    Source link

    Join our Facebook page
    https://www.facebook.com/groups/www.pakistanaffairs.pk

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link

  • Beyond memorization: Text generators may plagiarize beyond \’copy and paste\’: Language models, possibly including ChatGPT, paraphrase and reuse ideas from training data without citing the source, raising plagiarism concerns

    طلباء اپنی اگلی اسائنمنٹ مکمل کرنے کے لیے چیٹ بوٹ استعمال کرنے سے پہلے دو بار سوچ سکتے ہیں۔ زبان کے ماڈل جو صارف کے اشارے کے جواب میں متن تیار کرتے ہیں وہ مواد کو ایک سے زیادہ طریقوں سے سرقہ کرتے ہیں، پین اسٹیٹ کی زیرقیادت ایک تحقیقی ٹیم کے مطابق جس نے اس رجحان کا براہ راست جائزہ لینے کے لیے پہلا مطالعہ کیا۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے پروفیسر ڈونگون لی نے کہا، \”سرقہ سرقہ مختلف ذائقوں میں آتا ہے۔\” \”ہم یہ دیکھنا چاہتے تھے کہ کیا زبان کے ماڈل نہ صرف کاپی اور پیسٹ کرتے ہیں بلکہ اس کو سمجھے بغیر سرقہ کی مزید نفیس شکلوں کا سہارا لیتے ہیں۔\”

    محققین نے سرقہ کی تین شکلوں کی شناخت پر توجہ مرکوز کی: لفظی طور پر، یا براہ راست مواد کو کاپی اور پیسٹ کرنا؛ اصل ماخذ کا حوالہ دیے بغیر پیرا فریز، یا مواد کو دوبارہ ترتیب دینا اور دوبارہ ترتیب دینا؛ اور آئیڈیا، یا کسی متن سے بغیر کسی مناسب انتساب کے مرکزی خیال کا استعمال کرنا۔ انہوں نے خودکار سرقہ کا پتہ لگانے کے لیے ایک پائپ لائن بنائی اور اسے OpenAI کے GPT-2 کے خلاف آزمایا کیونکہ زبان کے ماڈل کا تربیتی ڈیٹا آن لائن دستیاب ہے، جس سے محققین GPT-2 کو پہلے سے تربیت دینے کے لیے استعمال ہونے والی 8 ملین دستاویزات سے تخلیق شدہ متن کا موازنہ کرنے کی اجازت دیتے ہیں۔

    سائنس دانوں نے 210,000 تخلیق شدہ تحریروں کو پہلے سے تربیت یافتہ لینگویج ماڈلز اور فائن ٹیونڈ لینگویج ماڈلز میں سرقہ کی جانچ کرنے کے لیے استعمال کیا، یا مخصوص موضوعات پر توجہ مرکوز کرنے کے لیے مزید تربیت یافتہ ماڈلز۔ اس معاملے میں، ٹیم نے سائنسی دستاویزات، COVID-19 سے متعلق علمی مضامین، اور پیٹنٹ کے دعووں پر توجہ مرکوز کرنے کے لیے تین زبانوں کے ماڈلز کو ٹھیک بنایا۔ انہوں نے ایک اوپن سورس سرچ انجن کا استعمال کرتے ہوئے سرفہرست 10 تربیتی دستاویزات کو بازیافت کیا جو ہر تیار کردہ متن سے ملتا جلتا ہے اور لفظی، پیرا فریز اور آئیڈیا سرقہ کی مثالوں کا بہتر طور پر پتہ لگانے کے لیے موجودہ ٹیکسٹ الائنمنٹ الگورتھم میں ترمیم کی۔

    ٹیم نے پایا کہ زبان کے ماڈلز نے تینوں قسم کے سرقہ کا ارتکاب کیا، اور یہ کہ ماڈل کو تربیت دینے کے لیے ڈیٹاسیٹ اور پیرامیٹرز جتنے بڑے ہوں گے، اتنا ہی اکثر سرقہ ہوتا ہے۔ انہوں نے یہ بھی نوٹ کیا کہ زبان کے عمدہ ماڈلز نے لفظی سرقہ کو کم کیا لیکن پیرا فریز اور آئیڈیا سرقہ کی مثالوں میں اضافہ کیا۔ اس کے علاوہ، انہوں نے زبان کے ماڈل کی ایسی مثالوں کی نشاندہی کی جو سرقہ کی تینوں شکلوں کے ذریعے افراد کی نجی معلومات کو بے نقاب کرتے ہیں۔ محققین اپنے نتائج 2023 ACM ویب کانفرنس میں پیش کریں گے، جو آسٹن، ٹیکساس میں 30 اپریل سے 4 مئی تک ہوتی ہے۔

    پین اسٹیٹ کے کالج آف انفارمیشن سائنسز اینڈ ٹیکنالوجی میں ڈاکٹریٹ کے طالب علم لیڈ مصنف جویونگ لی نے کہا، \”لوگ بڑے زبان کے ماڈلز کی پیروی کرتے ہیں کیونکہ ماڈل جتنا بڑا ہوتا ہے، نسل کی صلاحیتوں میں اضافہ ہوتا ہے۔\” \”ایک ہی وقت میں، وہ تربیتی کارپس کے اندر موجود مواد کی اصلیت اور تخلیقی صلاحیتوں کو خطرے میں ڈال رہے ہیں۔ یہ ایک اہم تلاش ہے۔\”

    محققین کے مطابق، مطالعہ ٹیکسٹ جنریٹرز اور اخلاقی اور فلسفیانہ سوالات کے بارے میں مزید تحقیق کی ضرورت پر روشنی ڈالتا ہے۔

    مسیسیپی یونیورسٹی میں کمپیوٹر اور انفارمیشن سائنس کے اسسٹنٹ پروفیسر تھائی لی نے کہا، \”اگرچہ آؤٹ پٹ پرکشش ہو سکتا ہے، اور زبان کے ماڈلز استعمال کرنے میں مزہ آ سکتے ہیں اور کچھ کاموں کے لیے نتیجہ خیز لگ سکتے ہیں، لیکن اس کا مطلب یہ نہیں ہے کہ وہ عملی ہیں۔\” جنہوں نے پین اسٹیٹ میں ڈاکٹریٹ کے امیدوار کے طور پر اس پروجیکٹ پر کام کرنا شروع کیا۔ \”عملی طور پر، ہمیں ان اخلاقی اور کاپی رائٹ کے مسائل کا خیال رکھنے کی ضرورت ہے جو ٹیکسٹ جنریٹر لاحق ہوتے ہیں۔\”

    اگرچہ مطالعہ کے نتائج صرف GPT-2 پر لاگو ہوتے ہیں، خودکار سرقہ کا پتہ لگانے کا عمل جو محققین نے قائم کیا ہے اسے نئے زبان کے ماڈلز جیسے ChatGPT پر لاگو کیا جا سکتا ہے تاکہ اس بات کا تعین کیا جا سکے کہ آیا یہ ماڈل تربیتی مواد کی سرقہ کرتے ہیں یا نہیں۔ محققین نے کہا کہ سرقہ کی جانچ، تاہم، ڈویلپرز پر منحصر ہے کہ وہ تربیتی ڈیٹا کو عوامی طور پر قابل رسائی بناتے ہیں۔

    سائنسدانوں کے مطابق، موجودہ مطالعہ AI محققین کو مستقبل میں مزید مضبوط، قابل اعتماد اور ذمہ دار زبان کے ماڈل بنانے میں مدد دے سکتا ہے۔ فی الحال، وہ لوگوں سے ٹیکسٹ جنریٹر استعمال کرتے وقت احتیاط برتنے کی تاکید کرتے ہیں۔

    پین اسٹیٹ میں انفارمیشن سائنسز اور ٹیکنالوجی کے اسسٹنٹ پروفیسر، Jinghui چن نے کہا، \”AI محققین اور سائنس دان اس بات کا مطالعہ کر رہے ہیں کہ زبان کے ماڈلز کو کس طرح بہتر اور زیادہ مضبوط بنایا جائے، اس دوران، بہت سے افراد اپنی روزمرہ کی زندگی میں زبان کے ماڈلز کو مختلف پیداواری کاموں کے لیے استعمال کر رہے ہیں۔\” \”جبکہ لینگویج ماڈلز کو سرچ انجن کے طور پر استعمال کرنا یا ڈیبگ کوڈ کے لیے اسٹیک اوور فلو کرنا شاید ٹھیک ہے، دوسرے مقاصد کے لیے، چونکہ لینگویج ماڈل سرقہ شدہ مواد تیار کر سکتا ہے، اس کے نتیجے میں صارف کے لیے منفی نتائج نکل سکتے ہیں۔\”

    ڈونگ وون لی نے مزید کہا کہ سرقہ کا نتیجہ کچھ غیر متوقع نہیں ہے۔

    انہوں نے کہا کہ \”ایک سٹاکسٹک طوطے کے طور پر، ہم نے زبان کے ماڈلز کو انسانی تحریروں کی نقل کرنا سکھایا بغیر انہیں یہ سکھایا کہ کیسے صحیح طریقے سے سرقہ نہ کیا جائے۔\” \”اب وقت آگیا ہے کہ انہیں مزید صحیح طریقے سے لکھنا سکھایا جائے، اور ہمیں ابھی بہت طویل سفر طے کرنا ہے۔\”

    نیشنل سائنس فاؤنڈیشن نے اس کام کی حمایت کی۔



    Source link