کد خبر: ۸۴۲۴۵
تعداد نظرات: ۱ نظر
نگاه شما:

بحران اعتبار در آزمون‌های بورد، آیا این یک الگوی معیوب تکرارشونده است؟ (موردکاوی: بورد جراحی شهریور ۱۴۰۴) - دکتر مصطفی قلاوند

آزمون بورد جراحی دامپزشکی شهریور ۱۴۰۴، متأسفانه، نمونه‌ای بارز از پدیده‌ی «انحراف سازه» را به نمایش می‌گذارد؛ پدیده‌ای که در آن، سازه‌ای که سنجش آن دشوار است (قضاوت) با سازه‌ای که سنجش آن آسان است (حافظه) جایگزین می‌شود ...

بحران اعتبار در آزمون‌های بورد، آیا این یک الگوی معیوب تکرارشونده است؟ (موردکاوی: بورد جراحی شهریور ۱۴۰۴)

دکتر مصطفی قلاوند

آزمون‌های صدور گواهینامه بورد تخصصی، به عنوان ابزارهای سنجش پرخطر (High-Stakes)، سنگ بنای تضمین صلاحیت حرفه‌ای و حفظ سلامت عمومی محسوب می‌شوند. نتیجه‌ی این آزمون‌ها نه تنها مسیر شغلی یک فرد، بلکه به طور مستقیم، ایمنی جامعه را تحت تأثیر قرار می‌دهد. بنابراین، چنین ابزاری باید دارای بالاترین سطح از «اعتبار» (Validity) باشد. در میان انواع اعتبار، «اعتبار سازه» (Construct Validity) نقشی محوری دارد؛ این شاخص به این پرسش اساسی پاسخ می‌دهد که آیا آزمون، «سازه» یا مفهوم انتزاعی «صلاحیت تخصصی جراحی» را به درستی اندازه‌گیری می‌کند؟.

صلاحیت تخصصی، مفهومی چندوجهی است که از دانش پایه، مهارت‌های فنی و مهم‌تر از همه، «قضاوت بالینی» تشکیل شده است. قضاوت بالینی، به عنوان جوهره‌ی تخصص، توانایی سنتز اطلاعات ناقص، ارزیابی گزینه‌های درمانی رقیب و تصمیم‌گیری در شرایط عدم قطعیت تعریف می‌شود. این مفهوم در تضاد آشکار با «دانش پایه» قرار دارد که صرفاً توانایی به خاطر سپردن و بازیابی حقایق است. آزمون بورد جراحی دامپزشکی شهریور ۱۴۰۴، متأسفانه، نمونه‌ای بارز از پدیده‌ی «انحراف سازه» (Construct Underrepresentation) را به نمایش می‌گذارد؛ پدیده‌ای که در آن، سازه‌ای که سنجش آن دشوار است (قضاوت) با سازه‌ای که سنجش آن آسان است (حافظه) جایگزین می‌شود. این مقاله با هدف ارائه یک تحلیل فنی شفاف و کمک به ارتقای فرآیند، به کالبدشکافی این انحراف می‌پردازد.

چارچوب تحلیلی:

برای اطمینان از یک تحلیل عینی، منصفانه و قابل تکرار، این بررسی از یک چارچوب داوری مدون موسوم به «پروتکل مربی هوشمند شناختی» (CMP) بهره می‌برد. این پروتکل تحلیلی بر دو ستون اصلی استوار است: طبقه‌بندی شناختی و طبقه‌بندی نقایص. ستون اول، طبقه‌بندی شناختی، وام‌دار طبقه‌بندی بلوم (Bloom's Taxonomy)، سوالات را به سه سطح تفکیک می‌کند: سطح L1 (بازیابی مستقیم دانش)، که صرفاً حافظه و «یادآوری» (Recall) یک واقعیت، تعریف یا لیست را می‌سنجد؛ سطح L2 (کاربرد/تحلیل)، که نیازمند «درک» و «به‌کارگیری» دانش در یک سناریوی ساده است؛ و سطح L3 (سنتز/ارزیابی)، که جوهره‌ی آزمون تخصصی، یعنی «قضاوت بالینی»، ارزیابی گزینه‌های پیچیده و مدیریت عوارض را هدف قرار می‌دهد. یک آزمون کارشناسی ممکن است بر L1 و L2 تمرکز کند، اما یک آزمون «بورد تخصصی» باید به طور قاطع بر سطوح L2 و L3 متمرکز باشد.

ستون دوم این چارچوب، طبقه‌بندی سه‌گانه‌ی نقایص است که هر سوال مشکل‌دار را بر اساس ماهیت خطا دسته‌بندی می‌کند. دسته ۱ (عدم تطابق شناختی)، شامل سوالاتی است که اگرچه ممکن است از نظر علمی صحیح باشند، اما سطح شناختی آن‌ها (L1) برای سنجش یک «متخصص» فاقد اعتبار و نامناسب است. دسته ۲ (نقص ساختاری و روان‌سنجی)، به سوالاتی اشاره دارد که نیت طراح ممکن است معتبر بوده باشد، اما به دلیل طراحی ضعیف (مانند ابهام در ساقه، گزینه‌های انحرافی غیرکاربردی، یا سرنخ‌های ناخواسته) «شکسته» (Broken) محسوب می‌شوند. و دسته ۳ (نقص ماهوی و غیرقابل اصلاح)، جدی‌ترین نوع نقص، شامل سوالاتی است که بر یک فرض علمی نادرست بنا شده‌اند، کلید رسمی آن‌ها به طور واضح غلط است، یا گزینه‌ها دارای خطای فاحش دسته‌بندی هستند.

یافته‌های کلیدی (بحران ۴۲ درصدی در اعتبار آزمون):

اعمال این چارچوب تحلیلی بر ۱۰۰ سوال آزمون بورد جراحی شهریور ۱۴۰۴، تصویری نگران‌کننده از وضعیت اعتبار آزمون را پدیدار می‌سازد. تحلیل آماری ممیزی نشان می‌دهد که مجموعاً ۴۲ درصد از کل آزمون دارای نقایص جدی بوده‌اند. این بحران در طراحی سوالات، به تفکیک، شامل ۳۲ درصد (۳۲ سوال) با «عدم اعتبار ماهوی» (نقایص فاجعه‌بار دسته ۳) و ۱۰ درصد (۱۰ سوال) با «نقایص ساختاری» (دسته ۲) است. این آمار به این معناست که ۳۲ سوال اساساً غیرقابل اصلاح هستند و باید فوراً از فرآیند نمره‌دهی حذف شوند، و ۱۰ سوال دیگر نیز در فرمت فعلی نامعتبر می‌باشند. علاوه بر این، بخش بزرگی از ۵۸ درصد سوالات باقی‌مانده، اگرچه فاقد نقص ماهوی بودند، اما از نظر شناختی در سطح L1 قرار داشتند و اعتبار آزمون را به عنوان یک سنجش «تخصصی» تضعیف می‌کردند.

واکاوی دسته ۱: عدم تطابق شناختی (غلبه L1) و بازطراحی سوال

بررسی عمیق‌تر نقایص دسته ۱ (عدم تطابق شناختی) نشان می‌دهد که بخش قابل توجهی از آزمون، به جای سنجش قضاوت، به سنجش تعاریف واژگان، آناتومی پایه، یا حقایق ابتدایی فارماکولوژی اختصاص یافته است. سوالاتی مانند سوال ۴۱ (تعریف Typhlectomy)، سوال ۳۲ (تعریف Marsupialization)، سوال ۴۴ (تعریف Delay phenomenon) و سوال ۹۲ (تعریف شکستگی Monteggia)، همگی نمونه‌هایی بارز از سوالات سطح L1 هستند. این دسته از سوالات (شامل بیش از ۳۰ سوال) توانایی تمایزگذاری بین یک رزیدنت سال اول و یک دیپلمات با تجربه را ندارند.

برای روشن شدن عمق این نقص، می‌توان سوال ۴۱ («Typhlectomy به چه معناست؟») را کالبدشکافی کرد. این سوال، نمونه کامل یک نقص «عدم تطابق شناختی» در سطح L1 است. یک متخصص جراحی با «تعریف» یک روش سنجیده نمی‌شود، بلکه با «اندیکاسیون‌ها»، «تکنیک» و «مدیریت عوارض» آن سنجیده می‌شود. اهمیت «تیفلکتومی» (برداشت سکوم) در مقابل «تیفلوتومی» (برش سکوم) یک قضاوت بالینی حیاتی در جراحی گوارش است که بر اساس ارزیابی قابلیت حیات بافت و ریسک عود بیماری صورت می‌گیرد؛ مواردی که سوال فعلی هیچ‌یک را نمی‌سنجد. این سوال می‌بایست به یک سناریوی L3 ارتقا می‌یافت؛ به عنوان مثال: «گاو شیری ۴ ساله‌ای با سابقه اتساع مزمن سکوم مراجعه کرده است. در لاپاراتومی، سکوم متسع و ادماتوز است، اما نکروز واضح دیده نمی‌شود. کدام اقدام، با توجه به ریسک بالای عود، مناسب‌ترین قضاوت بالینی است؟ الف) تیفلوتومی... ج) تیفلکتومی کامل...» . این سوال جدید، داوطلب را مجبور می‌کند تا تعریف (L1) را بداند، اما قضاوت خود را (L3) بر اساس مدیریت ریسک اعمال کند.

واکاوی دسته ۲: نقایص ساختاری و روان‌سنجی

در ادامه، نقایص دسته ۲ (ساختاری و روان‌سنجی) قرار دارند. این سوالات به دلیل طراحی ضعیف، معیوب هستند. نمونه‌ی بارز، استفاده از ساختارهای ضعیف روان‌سنجی است؛ سوالاتی مانند ۱، ۲ و ۳۵ که از گزینه «د) همه موارد» استفاده کرده‌اند، یا سوالات ۳۶ و ۵۹ که گزینه «گزینه ۱ و ۲» را به کار برده‌اند. این ساختارها به داوطلبی که تنها بخشی از پاسخ را می‌داند، اجازه می‌دهند پاسخ صحیح را حدس بزند (سرنخ‌دهی). همچنین، سوالات متعددی (مانند ۳، ۶، ۷، ۲۲، ۲۶) از کمیت‌سنج‌های مبهم (مانند «بیشترین»، «شایع‌ترین»، «بهترین») بدون ارائه زمینه کافی استفاده می‌کنند که منجر به ابهام در سوال می‌شود.

سوال ۳۶ («دلیل مقاومت بیشتر محوطه دهانی به عفونت چیست؟») نمونه‌ی کلاسیک نقص ساختاری است. گزینه (ج) «عدم وجود باکتری در محوطه دهانی» یک گزاره پوچ و آشکارا غلط است. داوطلب با حذف این گزینه پوچ و دیدن گزینه «د) گزینه ۱ و ۲»، به شدت به سمت انتخاب آن «هدایت» (Cued) می‌شود، بدون آنکه نیاز به ارزیابی واقعی اهمیت نسبی خون‌رسانی (الف) در مقابل خواص بزاق (ب) داشته باشد. این سوال باید به فرمتی (مثلاً ساقه منفی) بازنویسی می‌شد که داوطلب را مجبور به ارزیابی مستقل اعتبار علمی «هر» گزینه کند.

واکاوی دسته ۳: نقایص ماهوی و فاجعه‌بار

جدی‌ترین بخش این تحلیل، یافته‌های دسته ۳ (نقص ماهوی و غیرقابل اصلاح) است. این دسته، نشان‌دهنده شکست کامل فرآیند بازبینی علمی (Peer review) می‌باشد. این نقایص شامل سوالاتی با فرض علمی غلط هستند، مانند سوال ۲۳ که در مورد «بهترین آنتی‌بیوتک» برای «پاپیلوما» (یک بیماری ویروسی) می‌پرسد و بدین ترتیب، فرض ساقه سوال از پایه نادرست است.

دسته‌ی دیگر، سوالات با گزینه‌های پوچ (Strawman) هستند، مانند سوال ۳۹ که می‌پرسد کدامیک عامل مستعدکننده GDV «نیست». گزینه (ج) «این سندرم فقط در توله سگهای دو ماهه بروز میکند» آنچنان به طور فاحشی نادرست است (GDV بیماری کلاسیک سگ‌های مسن و بزرگ جثه است) که سوال را به سطح L0 (بدیهی) تنزل می‌دهد و آن را بی‌ارزش می‌کند. این سوال باید به سطح L3 ارتقا می‌یافت و بر ارزیابی وزن شواهد اپیدمیولوژیک مختلف (مانند مصرف یک وعده حجیم، خلق و خوی عصبی، یا اسپلنکتومی قبلی) متمرکز می‌شد .

فاجعه‌بارترین نمونه، سوال ۸۱ («شایع ترین شکستگی داخل دهانی فک بالا کدام است؟») است که یک «نقص ماهوی فاجعه‌بار» (Fatal Flaw) محسوب می‌شود. این سوال از چند جهت معیوب است. اول، «خطای دسته‌بندی»؛ ساقه سوال به وضوح در مورد «فک بالا» (Maxilla) می‌پرسد، اما گزینه‌های (ج) و (د) شکستگی‌های «فک پایین» (mandible) هستند . دوم، «خطای علمی»؛ گزینه (الف) به «کام نرم» (soft palate) اشاره دارد، در حالی که شکستگی رایج گربه‌ها در اثر تروما، شکستگی «کام سخت» (hard palate) است. داوطلب متخصصی که می‌داند شایع‌ترین شکستگی فک در گربه‌ها، سمفیز فک پایین است و شایع‌ترین شکستگی ماگزیلا، شکستگی کام سخت است، با دیدن این سوال دچار سردرگمی کامل شده و به طور فعال آسیب می‌بیند. این سوال باید «ابطال» (Abolished) می‌شد.

پیامدهای سیستماتیک، از سقوط پایایی تا شکست فرآیند QA

وجود این حجم از سوالات معیوب (شامل حداقل ۳۲ سوال دسته ۳ و ۱۰ سوال دسته ۲) فراتر از یک خطای ساده است؛ این یک «شکست سیستماتیک» در فرآیند تضمین کیفیت (QA) است. ریشه این بحران، فقدان یک فرآیند مدون، شامل عدم آموزش طراحان سوال در مورد اصول روان‌سنجی (مانند پرهیز از «همه موارد» یا گزینه‌های پوچ) و فقدان بازبینی همتا (Peer review) دقیق است .

مهم‌ترین پیامد آماری حذف این حجم از سوالات (۳۲ تا ۴۲ درصد)، تهدید «پایایی» (Reliability) کل آزمون است. پایایی، که اغلب با شاخص آلفای کرونباخ (Cronbach’s α) سنجیده می‌شود، نشان می‌دهد که آزمون تا چه حد به طور مداوم یک سازه را اندازه‌گیری می‌کند. اگر با حذف سوالات معیوب، این شاخص به زیر آستانه قابل قبول (مثلاً ۰.۷۵) سقوط کند، نمره نهایی داوطلب ممکن است بیشتر بازتاب‌دهنده شانس باشد تا دانش واقعی. این موضوع، دفاع قانونی و آماری از نتایج آزمون را تقریباً غیرممکن می‌سازد. بنابراین، هیئت بورد موظف است پیش از هرگونه نمره‌دهی مجدد، یک شبیه‌سازی آماری انجام دهد و پایایی آزمون باقی‌مانده را مجدداً محاسبه کند.

راهکار بازیابی اعتبار:

برای بازیابی اعتبار آزمون و تضمین عدالت، اجرای یک پروتکل اصلاحی سه‌مرحله‌ای ضروری است.

مرحله اول: تریاژ فوری (اقدام برای آزمون فعلی). هیئت بورد باید فوراً تمامی سوالات شناسایی‌شده در دسته ۳ (نقص ماهوی، مانند ۲۳، ۳۹، ۶۶، و ۸۱) را «ابطال» و از فرآیند نمره‌دهی حذف کند. نمره قبولی باید بر اساس سوالات معتبر باقی‌مانده مجدداً محاسبه و تعدیل شود. همچنین، تحلیل آماری آلفای کرونباخ پس از حذف، برای اطمینان از حفظ حداقل پایایی آماری الزامی است.

مرحله دوم: بازطراحی بانک سوالات (اقدام میان‌مدت). تمامی سوالات دسته ۱ (L1) باید بازنشسته شده یا طبق الگوهای ارائه‌شده (مانند بازطراحی سوال ۴۱) به سناریوهای L2/L3 بازطراحی شوند. تمامی سوالات دسته ۲ (ساختاری) باید اصلاح شوند. مهم‌تر از همه، هر سوال بازطراحی‌شده باید دارای «فراداده» (Metadata) کامل شامل سطح شناختی، هدف آموزشی و مرجع علمی دقیق باشد. افزون بر این، هر سوال باید مجهز به یک «کلید مفسر» شود؛ این کلید (یک پاراگراف تشریحی کوتاه در مورد چرایی صحت و غلط بودن گزینه‌ها) قدرتمندترین ابزار برای «دفاع قانونی» از آزمون و ایجاد یک مسیر ممیزی شفاف برای بازبینی همتا است .

مرحله سوم: اصلاحات حاکمیتی (اقدام بلندمدت). برای جلوگیری از تکرار این بحران، باید یک «کمیته دائمی تضمین کیفیت آزمون» متشکل از متخصصان موضوعی (جراحان) و متخصصان روان‌سنجی تأسیس شود. برگزاری کارگاه‌های آموزشی اجبارى براى تمام طراحان سوال در مورد اصول طراحى آزمون‌هاى پرخطر باید در دستور کار قرار گیرد. این کمیته باید «دروازه‌های پذیرش روان‌سنجی» را به عنوان استاندارد عددی و مبتنی بر داده، جایگزین فرآیندهای سلیقه‌ای گذشته کند. بر این اساس، هیچ سوالی نباید بدون عبور از یک فرآیند اعتبارسنجی آماری وارد بانک نهایی آزمون شود. سوالات پایلوت‌شده تنها در صورتی پذیرفته می‌شوند که آستانه‌های آماری مشخصی مانند شاخص تمایز (DI) بالا و سطح دشواری (ρ-value) مناسب را کسب کنند. این فرآیند، کنترل کیفیت را خودکار کرده و «داده» را جایگزین «سلیقه» می‌کند.

 منبع:

Qalavand, M. (2025). A Psychometric Analysis and Construct Validity in Veterinary Surgery Board Examination: A Technical Commentary and Evidence-Based Remediation Protocol Zenodo. https://doi.org/10.5281/zenodo.17600309

 

انتشار یافته: ۱
در انتظار بررسی: ۰
غیر قابل انتشار: ۰
ناشناس
|
Estonia
|
۱۲:۱۲ - ۱۴۰۴/۰۸/۲۳
0
0
سلام
هیچ گوش شنوایی در دانشگاه ازاد نیست تا جلوی این .....ها بگیره …مگه میشه
نظر شما
ادامه