
بحران اعتبار در آزمونهای بورد، آیا این یک الگوی معیوب تکرارشونده است؟ (موردکاوی: بورد جراحی شهریور ۱۴۰۴)
دکتر مصطفی قلاوند
آزمونهای صدور گواهینامه بورد تخصصی، به عنوان ابزارهای سنجش پرخطر (High-Stakes)، سنگ بنای تضمین صلاحیت حرفهای و حفظ سلامت عمومی محسوب میشوند. نتیجهی این آزمونها نه تنها مسیر شغلی یک فرد، بلکه به طور مستقیم، ایمنی جامعه را تحت تأثیر قرار میدهد. بنابراین، چنین ابزاری باید دارای بالاترین سطح از «اعتبار» (Validity) باشد. در میان انواع اعتبار، «اعتبار سازه» (Construct Validity) نقشی محوری دارد؛ این شاخص به این پرسش اساسی پاسخ میدهد که آیا آزمون، «سازه» یا مفهوم انتزاعی «صلاحیت تخصصی جراحی» را به درستی اندازهگیری میکند؟.
صلاحیت تخصصی، مفهومی چندوجهی است که از دانش پایه، مهارتهای فنی و مهمتر از همه، «قضاوت بالینی» تشکیل شده است. قضاوت بالینی، به عنوان جوهرهی تخصص، توانایی سنتز اطلاعات ناقص، ارزیابی گزینههای درمانی رقیب و تصمیمگیری در شرایط عدم قطعیت تعریف میشود. این مفهوم در تضاد آشکار با «دانش پایه» قرار دارد که صرفاً توانایی به خاطر سپردن و بازیابی حقایق است. آزمون بورد جراحی دامپزشکی شهریور ۱۴۰۴، متأسفانه، نمونهای بارز از پدیدهی «انحراف سازه» (Construct Underrepresentation) را به نمایش میگذارد؛ پدیدهای که در آن، سازهای که سنجش آن دشوار است (قضاوت) با سازهای که سنجش آن آسان است (حافظه) جایگزین میشود. این مقاله با هدف ارائه یک تحلیل فنی شفاف و کمک به ارتقای فرآیند، به کالبدشکافی این انحراف میپردازد.
چارچوب تحلیلی:
برای اطمینان از یک تحلیل عینی، منصفانه و قابل تکرار، این بررسی از یک چارچوب داوری مدون موسوم به «پروتکل مربی هوشمند شناختی» (CMP) بهره میبرد. این پروتکل تحلیلی بر دو ستون اصلی استوار است: طبقهبندی شناختی و طبقهبندی نقایص. ستون اول، طبقهبندی شناختی، وامدار طبقهبندی بلوم (Bloom's Taxonomy)، سوالات را به سه سطح تفکیک میکند: سطح L1 (بازیابی مستقیم دانش)، که صرفاً حافظه و «یادآوری» (Recall) یک واقعیت، تعریف یا لیست را میسنجد؛ سطح L2 (کاربرد/تحلیل)، که نیازمند «درک» و «بهکارگیری» دانش در یک سناریوی ساده است؛ و سطح L3 (سنتز/ارزیابی)، که جوهرهی آزمون تخصصی، یعنی «قضاوت بالینی»، ارزیابی گزینههای پیچیده و مدیریت عوارض را هدف قرار میدهد. یک آزمون کارشناسی ممکن است بر L1 و L2 تمرکز کند، اما یک آزمون «بورد تخصصی» باید به طور قاطع بر سطوح L2 و L3 متمرکز باشد.
ستون دوم این چارچوب، طبقهبندی سهگانهی نقایص است که هر سوال مشکلدار را بر اساس ماهیت خطا دستهبندی میکند. دسته ۱ (عدم تطابق شناختی)، شامل سوالاتی است که اگرچه ممکن است از نظر علمی صحیح باشند، اما سطح شناختی آنها (L1) برای سنجش یک «متخصص» فاقد اعتبار و نامناسب است. دسته ۲ (نقص ساختاری و روانسنجی)، به سوالاتی اشاره دارد که نیت طراح ممکن است معتبر بوده باشد، اما به دلیل طراحی ضعیف (مانند ابهام در ساقه، گزینههای انحرافی غیرکاربردی، یا سرنخهای ناخواسته) «شکسته» (Broken) محسوب میشوند. و دسته ۳ (نقص ماهوی و غیرقابل اصلاح)، جدیترین نوع نقص، شامل سوالاتی است که بر یک فرض علمی نادرست بنا شدهاند، کلید رسمی آنها به طور واضح غلط است، یا گزینهها دارای خطای فاحش دستهبندی هستند.
یافتههای کلیدی (بحران ۴۲ درصدی در اعتبار آزمون):
اعمال این چارچوب تحلیلی بر ۱۰۰ سوال آزمون بورد جراحی شهریور ۱۴۰۴، تصویری نگرانکننده از وضعیت اعتبار آزمون را پدیدار میسازد. تحلیل آماری ممیزی نشان میدهد که مجموعاً ۴۲ درصد از کل آزمون دارای نقایص جدی بودهاند. این بحران در طراحی سوالات، به تفکیک، شامل ۳۲ درصد (۳۲ سوال) با «عدم اعتبار ماهوی» (نقایص فاجعهبار دسته ۳) و ۱۰ درصد (۱۰ سوال) با «نقایص ساختاری» (دسته ۲) است. این آمار به این معناست که ۳۲ سوال اساساً غیرقابل اصلاح هستند و باید فوراً از فرآیند نمرهدهی حذف شوند، و ۱۰ سوال دیگر نیز در فرمت فعلی نامعتبر میباشند. علاوه بر این، بخش بزرگی از ۵۸ درصد سوالات باقیمانده، اگرچه فاقد نقص ماهوی بودند، اما از نظر شناختی در سطح L1 قرار داشتند و اعتبار آزمون را به عنوان یک سنجش «تخصصی» تضعیف میکردند.
واکاوی دسته ۱: عدم تطابق شناختی (غلبه L1) و بازطراحی سوال
بررسی عمیقتر نقایص دسته ۱ (عدم تطابق شناختی) نشان میدهد که بخش قابل توجهی از آزمون، به جای سنجش قضاوت، به سنجش تعاریف واژگان، آناتومی پایه، یا حقایق ابتدایی فارماکولوژی اختصاص یافته است. سوالاتی مانند سوال ۴۱ (تعریف Typhlectomy)، سوال ۳۲ (تعریف Marsupialization)، سوال ۴۴ (تعریف Delay phenomenon) و سوال ۹۲ (تعریف شکستگی Monteggia)، همگی نمونههایی بارز از سوالات سطح L1 هستند. این دسته از سوالات (شامل بیش از ۳۰ سوال) توانایی تمایزگذاری بین یک رزیدنت سال اول و یک دیپلمات با تجربه را ندارند.
برای روشن شدن عمق این نقص، میتوان سوال ۴۱ («Typhlectomy به چه معناست؟») را کالبدشکافی کرد. این سوال، نمونه کامل یک نقص «عدم تطابق شناختی» در سطح L1 است. یک متخصص جراحی با «تعریف» یک روش سنجیده نمیشود، بلکه با «اندیکاسیونها»، «تکنیک» و «مدیریت عوارض» آن سنجیده میشود. اهمیت «تیفلکتومی» (برداشت سکوم) در مقابل «تیفلوتومی» (برش سکوم) یک قضاوت بالینی حیاتی در جراحی گوارش است که بر اساس ارزیابی قابلیت حیات بافت و ریسک عود بیماری صورت میگیرد؛ مواردی که سوال فعلی هیچیک را نمیسنجد. این سوال میبایست به یک سناریوی L3 ارتقا مییافت؛ به عنوان مثال: «گاو شیری ۴ سالهای با سابقه اتساع مزمن سکوم مراجعه کرده است. در لاپاراتومی، سکوم متسع و ادماتوز است، اما نکروز واضح دیده نمیشود. کدام اقدام، با توجه به ریسک بالای عود، مناسبترین قضاوت بالینی است؟ الف) تیفلوتومی... ج) تیفلکتومی کامل...» . این سوال جدید، داوطلب را مجبور میکند تا تعریف (L1) را بداند، اما قضاوت خود را (L3) بر اساس مدیریت ریسک اعمال کند.
واکاوی دسته ۲: نقایص ساختاری و روانسنجی
در ادامه، نقایص دسته ۲ (ساختاری و روانسنجی) قرار دارند. این سوالات به دلیل طراحی ضعیف، معیوب هستند. نمونهی بارز، استفاده از ساختارهای ضعیف روانسنجی است؛ سوالاتی مانند ۱، ۲ و ۳۵ که از گزینه «د) همه موارد» استفاده کردهاند، یا سوالات ۳۶ و ۵۹ که گزینه «گزینه ۱ و ۲» را به کار بردهاند. این ساختارها به داوطلبی که تنها بخشی از پاسخ را میداند، اجازه میدهند پاسخ صحیح را حدس بزند (سرنخدهی). همچنین، سوالات متعددی (مانند ۳، ۶، ۷، ۲۲، ۲۶) از کمیتسنجهای مبهم (مانند «بیشترین»، «شایعترین»، «بهترین») بدون ارائه زمینه کافی استفاده میکنند که منجر به ابهام در سوال میشود.
سوال ۳۶ («دلیل مقاومت بیشتر محوطه دهانی به عفونت چیست؟») نمونهی کلاسیک نقص ساختاری است. گزینه (ج) «عدم وجود باکتری در محوطه دهانی» یک گزاره پوچ و آشکارا غلط است. داوطلب با حذف این گزینه پوچ و دیدن گزینه «د) گزینه ۱ و ۲»، به شدت به سمت انتخاب آن «هدایت» (Cued) میشود، بدون آنکه نیاز به ارزیابی واقعی اهمیت نسبی خونرسانی (الف) در مقابل خواص بزاق (ب) داشته باشد. این سوال باید به فرمتی (مثلاً ساقه منفی) بازنویسی میشد که داوطلب را مجبور به ارزیابی مستقل اعتبار علمی «هر» گزینه کند.
واکاوی دسته ۳: نقایص ماهوی و فاجعهبار
جدیترین بخش این تحلیل، یافتههای دسته ۳ (نقص ماهوی و غیرقابل اصلاح) است. این دسته، نشاندهنده شکست کامل فرآیند بازبینی علمی (Peer review) میباشد. این نقایص شامل سوالاتی با فرض علمی غلط هستند، مانند سوال ۲۳ که در مورد «بهترین آنتیبیوتک» برای «پاپیلوما» (یک بیماری ویروسی) میپرسد و بدین ترتیب، فرض ساقه سوال از پایه نادرست است.
دستهی دیگر، سوالات با گزینههای پوچ (Strawman) هستند، مانند سوال ۳۹ که میپرسد کدامیک عامل مستعدکننده GDV «نیست». گزینه (ج) «این سندرم فقط در توله سگهای دو ماهه بروز میکند» آنچنان به طور فاحشی نادرست است (GDV بیماری کلاسیک سگهای مسن و بزرگ جثه است) که سوال را به سطح L0 (بدیهی) تنزل میدهد و آن را بیارزش میکند. این سوال باید به سطح L3 ارتقا مییافت و بر ارزیابی وزن شواهد اپیدمیولوژیک مختلف (مانند مصرف یک وعده حجیم، خلق و خوی عصبی، یا اسپلنکتومی قبلی) متمرکز میشد .
فاجعهبارترین نمونه، سوال ۸۱ («شایع ترین شکستگی داخل دهانی فک بالا کدام است؟») است که یک «نقص ماهوی فاجعهبار» (Fatal Flaw) محسوب میشود. این سوال از چند جهت معیوب است. اول، «خطای دستهبندی»؛ ساقه سوال به وضوح در مورد «فک بالا» (Maxilla) میپرسد، اما گزینههای (ج) و (د) شکستگیهای «فک پایین» (mandible) هستند . دوم، «خطای علمی»؛ گزینه (الف) به «کام نرم» (soft palate) اشاره دارد، در حالی که شکستگی رایج گربهها در اثر تروما، شکستگی «کام سخت» (hard palate) است. داوطلب متخصصی که میداند شایعترین شکستگی فک در گربهها، سمفیز فک پایین است و شایعترین شکستگی ماگزیلا، شکستگی کام سخت است، با دیدن این سوال دچار سردرگمی کامل شده و به طور فعال آسیب میبیند. این سوال باید «ابطال» (Abolished) میشد.
پیامدهای سیستماتیک، از سقوط پایایی تا شکست فرآیند QA
وجود این حجم از سوالات معیوب (شامل حداقل ۳۲ سوال دسته ۳ و ۱۰ سوال دسته ۲) فراتر از یک خطای ساده است؛ این یک «شکست سیستماتیک» در فرآیند تضمین کیفیت (QA) است. ریشه این بحران، فقدان یک فرآیند مدون، شامل عدم آموزش طراحان سوال در مورد اصول روانسنجی (مانند پرهیز از «همه موارد» یا گزینههای پوچ) و فقدان بازبینی همتا (Peer review) دقیق است .
مهمترین پیامد آماری حذف این حجم از سوالات (۳۲ تا ۴۲ درصد)، تهدید «پایایی» (Reliability) کل آزمون است. پایایی، که اغلب با شاخص آلفای کرونباخ (Cronbach’s α) سنجیده میشود، نشان میدهد که آزمون تا چه حد به طور مداوم یک سازه را اندازهگیری میکند. اگر با حذف سوالات معیوب، این شاخص به زیر آستانه قابل قبول (مثلاً ۰.۷۵) سقوط کند، نمره نهایی داوطلب ممکن است بیشتر بازتابدهنده شانس باشد تا دانش واقعی. این موضوع، دفاع قانونی و آماری از نتایج آزمون را تقریباً غیرممکن میسازد. بنابراین، هیئت بورد موظف است پیش از هرگونه نمرهدهی مجدد، یک شبیهسازی آماری انجام دهد و پایایی آزمون باقیمانده را مجدداً محاسبه کند.
راهکار بازیابی اعتبار:
برای بازیابی اعتبار آزمون و تضمین عدالت، اجرای یک پروتکل اصلاحی سهمرحلهای ضروری است.
مرحله اول: تریاژ فوری (اقدام برای آزمون فعلی). هیئت بورد باید فوراً تمامی سوالات شناساییشده در دسته ۳ (نقص ماهوی، مانند ۲۳، ۳۹، ۶۶، و ۸۱) را «ابطال» و از فرآیند نمرهدهی حذف کند. نمره قبولی باید بر اساس سوالات معتبر باقیمانده مجدداً محاسبه و تعدیل شود. همچنین، تحلیل آماری آلفای کرونباخ پس از حذف، برای اطمینان از حفظ حداقل پایایی آماری الزامی است.
مرحله دوم: بازطراحی بانک سوالات (اقدام میانمدت). تمامی سوالات دسته ۱ (L1) باید بازنشسته شده یا طبق الگوهای ارائهشده (مانند بازطراحی سوال ۴۱) به سناریوهای L2/L3 بازطراحی شوند. تمامی سوالات دسته ۲ (ساختاری) باید اصلاح شوند. مهمتر از همه، هر سوال بازطراحیشده باید دارای «فراداده» (Metadata) کامل شامل سطح شناختی، هدف آموزشی و مرجع علمی دقیق باشد. افزون بر این، هر سوال باید مجهز به یک «کلید مفسر» شود؛ این کلید (یک پاراگراف تشریحی کوتاه در مورد چرایی صحت و غلط بودن گزینهها) قدرتمندترین ابزار برای «دفاع قانونی» از آزمون و ایجاد یک مسیر ممیزی شفاف برای بازبینی همتا است .
مرحله سوم: اصلاحات حاکمیتی (اقدام بلندمدت). برای جلوگیری از تکرار این بحران، باید یک «کمیته دائمی تضمین کیفیت آزمون» متشکل از متخصصان موضوعی (جراحان) و متخصصان روانسنجی تأسیس شود. برگزاری کارگاههای آموزشی اجبارى براى تمام طراحان سوال در مورد اصول طراحى آزمونهاى پرخطر باید در دستور کار قرار گیرد. این کمیته باید «دروازههای پذیرش روانسنجی» را به عنوان استاندارد عددی و مبتنی بر داده، جایگزین فرآیندهای سلیقهای گذشته کند. بر این اساس، هیچ سوالی نباید بدون عبور از یک فرآیند اعتبارسنجی آماری وارد بانک نهایی آزمون شود. سوالات پایلوتشده تنها در صورتی پذیرفته میشوند که آستانههای آماری مشخصی مانند شاخص تمایز (DI) بالا و سطح دشواری (ρ-value) مناسب را کسب کنند. این فرآیند، کنترل کیفیت را خودکار کرده و «داده» را جایگزین «سلیقه» میکند.
منبع:
Qalavand, M. (2025). A Psychometric Analysis and Construct Validity in Veterinary Surgery Board Examination: A Technical Commentary and Evidence-Based Remediation Protocol Zenodo. https://doi.org/10.5281/zenodo.17600309
هیچ گوش شنوایی در دانشگاه ازاد نیست تا جلوی این .....ها بگیره …مگه میشه