ChatGPT نے ریڈیولاجی بورڈ کا امتحان پاس کیا۔

author
0 minutes, 10 seconds Read

چیٹ جی پی ٹی کے تازہ ترین ورژن نے ریڈیولوجی بورڈ طرز کا امتحان پاس کیا، جس میں بڑے زبان کے ماڈلز کی صلاحیت کو اجاگر کیا گیا ہے بلکہ ان حدود کو بھی ظاہر کیا گیا ہے جو قابل اعتمادی میں رکاوٹ ہیں، میں شائع ہونے والی دو نئی تحقیقی مطالعات کے مطابق۔ ریڈیولوجیریڈیولوجیکل سوسائٹی آف نارتھ امریکہ (RSNA) کا ایک جریدہ۔

ChatGPT ایک مصنوعی ذہانت (AI) چیٹ بوٹ ہے جو اپنے وسیع تربیتی ڈیٹا میں الفاظ کے درمیان پیٹرن اور رشتوں کو پہچاننے کے لیے ایک گہرے سیکھنے کا ماڈل استعمال کرتا ہے تاکہ فوری طور پر انسانوں جیسا ردعمل پیدا کیا جا سکے۔ لیکن چونکہ اس کے تربیتی ڈیٹا میں سچائی کا کوئی ذریعہ نہیں ہے، اس لیے یہ ٹول ایسے ردعمل پیدا کر سکتا ہے جو حقیقتاً غلط ہوں۔

“چیٹ جی پی ٹی جیسے بڑے لینگویج ماڈلز کا استعمال پھٹ رہا ہے اور صرف بڑھتا ہی جا رہا ہے،” مرکزی مصنف راجیش بھیانہ، ایم ڈی، FRCPC، یونیورسٹی میڈیکل امیجنگ ٹورنٹو، ٹورنٹو جنرل ہسپتال، کینیڈا میں پیٹ کے ریڈیولاجسٹ اور ٹیکنالوجی لیڈ نے کہا۔ “ہماری تحقیق ریڈیوولوجی سیاق و سباق میں چیٹ جی پی ٹی کی کارکردگی کے بارے میں بصیرت فراہم کرتی ہے، جس میں بڑے لینگویج ماڈلز کی ناقابل یقین صلاحیت کو اجاگر کیا جاتا ہے، اس کے ساتھ موجودہ حدود جو اسے ناقابل اعتبار بناتی ہیں۔”

چیٹ جی پی ٹی کو حال ہی میں تاریخ میں سب سے تیزی سے بڑھتی ہوئی صارفین کی ایپلی کیشن کا نام دیا گیا ہے، اور اسی طرح کے چیٹ بوٹس کو گوگل اور بنگ جیسے مشہور سرچ انجنوں میں شامل کیا جا رہا ہے جنہیں معالجین اور مریض طبی معلومات کی تلاش کے لیے استعمال کرتے ہیں، ڈاکٹر بھیانہ نے نوٹ کیا۔

ریڈیولاجی بورڈ کے امتحان کے سوالات پر اس کی کارکردگی کا جائزہ لینے اور طاقتوں اور حدود کو دریافت کرنے کے لیے، ڈاکٹر بھیانہ اور ساتھیوں نے پہلے GPT-3.5 پر مبنی ChatGPT کا تجربہ کیا، جو اس وقت سب سے زیادہ استعمال شدہ ورژن ہے۔ محققین نے کینیڈین رائل کالج اور امریکن بورڈ آف ریڈیولوجی کے امتحانات کے انداز، مواد اور مشکل سے مماثل 150 متعدد انتخابی سوالات کا استعمال کیا۔

سوالات میں تصاویر شامل نہیں تھیں اور کارکردگی کے بارے میں بصیرت حاصل کرنے کے لیے سوال کی قسم کے لحاظ سے گروپ کیا گیا تھا: لوئر آرڈر (علم کی یاد، بنیادی سمجھ) اور اعلیٰ ترتیب (لاگو، تجزیہ، ترکیب) سوچ۔ اعلی ترتیب والے سوچنے والے سوالات کو مزید قسم کے لحاظ سے ذیلی درجہ بندی کیا گیا تھا (امیجنگ کے نتائج کی تفصیل، طبی انتظام، حساب اور درجہ بندی، بیماری کی انجمنیں)۔

ChatGPT کی کارکردگی کا مجموعی طور پر اور سوال کی قسم اور موضوع کے لحاظ سے جائزہ لیا گیا۔ جوابات میں زبان کے اعتماد کا بھی جائزہ لیا گیا۔

محققین نے پایا کہ GPT-3.5 پر مبنی ChatGPT نے 69% سوالات کا صحیح جواب دیا (150 میں سے 104)، کینیڈا میں رائل کالج کے استعمال کردہ 70% کے پاسنگ گریڈ کے قریب۔ ماڈل نے ان سوالوں پر نسبتاً اچھی کارکردگی کا مظاہرہ کیا جن میں نچلے درجے کی سوچ کی ضرورت ہوتی ہے (84%، 61 میں سے 51)، لیکن اعلیٰ ترتیب والی سوچ (60%، 89 میں سے 53) سے متعلق سوالات کے ساتھ جدوجہد کی۔ مزید خاص طور پر، اس نے امیجنگ کے نتائج (61%، 28 میں سے 46)، حساب اور درجہ بندی (25%، 8 میں سے 2)، اور تصورات کا اطلاق (30%، 10 میں سے 3) پر مشتمل اعلیٰ ترتیب والے سوالات کے ساتھ جدوجہد کی۔ ہائی آرڈر سوچ کے سوالات پر اس کی ناقص کارکردگی اس کی ریڈیوولوجی سے متعلق مخصوص تربیت کی کمی کی وجہ سے حیران کن نہیں تھی۔

GPT-4 کو مارچ 2023 میں محدود شکل میں بامعاوضہ صارفین کے لیے جاری کیا گیا تھا، خاص طور پر GPT-3.5 کے مقابلے میں جدید استدلال کی صلاحیتوں میں بہتری کا دعویٰ کرتے ہوئے

ایک فالو اپ اسٹڈی میں، GPT-4 نے اسی سوالوں کے 81% (121 میں سے 150) درست طریقے سے جواب دیا، GPT-3.5 کو پیچھے چھوڑ دیا اور 70% کی گزرنے کی حد سے تجاوز کیا۔ GPT-4 نے اعلیٰ ترتیب والے سوچنے والے سوالات (81%) پر GPT-3.5 سے بہت بہتر کارکردگی کا مظاہرہ کیا، خاص طور پر وہ جن میں امیجنگ کے نتائج کی تفصیل (85%) اور تصورات کا اطلاق (90%) شامل ہے۔

نتائج سے پتہ چلتا ہے کہ GPT-4 کا دعویٰ کیا گیا ہے کہ بہتر استدلال کی صلاحیتوں کا ترجمہ ریڈیوولوجی سیاق و سباق میں بہتر کارکردگی میں ہوتا ہے۔ وہ ریڈیوولوجی سے متعلق مخصوص اصطلاحات کی بہتر سیاق و سباق کی تفہیم کا بھی مشورہ دیتے ہیں، بشمول امیجنگ کی تفصیل، جو مستقبل کے بہاو ایپلی کیشنز کو فعال کرنے کے لیے اہم ہے۔

ڈاکٹر بھیانہ نے کہا، “ہمارا مطالعہ ریڈیولوجی میں ChatGPT کی کارکردگی میں مختصر وقت کے دوران ایک متاثر کن بہتری کو ظاہر کرتا ہے، جو اس تناظر میں بڑے زبان کے ماڈلز کی بڑھتی ہوئی صلاحیت کو اجاگر کرتا ہے۔”

GPT-4 نے نچلے درجے کے سوچ والے سوالات (80% بمقابلہ 84%) میں کوئی بہتری نہیں دکھائی اور 12 سوالات کے غلط جواب دیے جن کا GPT-3.5 نے صحیح جواب دیا، جس سے معلومات اکٹھا کرنے کے لیے اس کی وشوسنییتا سے متعلق سوالات پیدا ہوئے۔

ڈاکٹر بھیانہ نے کہا، “ہم ابتدائی طور پر کچھ چیلنجنگ ریڈیولوجی سوالات کے ChatGPT کے درست اور پراعتماد جوابات سے حیران ہوئے، لیکن پھر کچھ انتہائی غیر منطقی اور غلط دعووں سے بھی اتنے ہی حیران ہوئے۔” “یقینا، یہ دیکھتے ہوئے کہ یہ ماڈل کیسے کام کرتے ہیں، غلط ردعمل خاص طور پر حیران کن نہیں ہونا چاہئے.”

ChatGPT کا غلط ردعمل پیدا کرنے کا خطرناک رجحان، جسے ہیلوسینیشن کہا جاتا ہے، GPT-4 میں کم پایا جاتا ہے لیکن اس کے باوجود طبی تعلیم اور اس وقت پریکٹس میں استعمال کو محدود کرتا ہے۔

دونوں مطالعات سے پتہ چلتا ہے کہ ChatGPT نے مسلسل پر اعتماد زبان کا استعمال کیا، یہاں تک کہ غلط ہونے کے باوجود۔ یہ خاص طور پر خطرناک ہے اگر مکمل طور پر معلومات کے لیے انحصار کیا جائے، ڈاکٹر بھیانا نوٹ کرتے ہیں، خاص طور پر ان نوواردوں کے لیے جو پراعتماد غلط جوابات کو غلط نہیں سمجھتے۔

“میرے نزدیک، یہ اس کی سب سے بڑی حد ہے۔ فی الحال، چیٹ جی پی ٹی کا بہترین استعمال خیالات کو جنم دینے، طبی تحریری عمل کو شروع کرنے اور ڈیٹا کے خلاصے میں مدد کے لیے کیا جاتا ہے۔ اگر فوری معلومات کو یاد کرنے کے لیے استعمال کیا جائے، تو اسے ہمیشہ حقائق کی جانچ پڑتال کی ضرورت ہوتی ہے،” ڈاکٹر بھیانہ نے کہا۔



>Source link>

>>Join our Facebook Group be part of community. <<

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *