در مورد ملاک دوم، در مطالعات شبیهسازی به آسانی میتوان از طریق نمونهگیری تصادفی تعداد زیادی از آزمودنیها از جمعیت آزمودنی مورد انتظار و شبیهسازی اجرای CAT برای آنها و سپس، محاسبهی اجتماع تعداد سؤالات مورد نیاز در سطوح متفاوت دشواری، این ملاک را برقرار کرد. همهی خزانههای سؤال بهینهی طراحی شده در این پژوهش در دامنهی وسیعی از سطوح دشواری سؤال پراکنده شدهاند. به طوریکه، توزیع پارامترهای b در تمام ROP ها به صورت یکنواختی در سراسر مقیاس توانایی توزیع شده است، این توزیع برخلاف توزیع نرمال زیربنایی توانایی آزمودنیهایی است که آزمون برای آنها شبیهسازی شد. به عبارت دیگر، پارامترهای b به طور یکنواختی در طول مقیاس مهارت توزیع شدند، به طوریکه با توزیع توانایی استفاده شده در شبیهسازی مطابقت ندارند این ویژگی نیز در تحقیقات هی و ریکیسی (۲۰۱۰) مورد تایید قرار گرفت، زیرا ماهیت CAT ایجاب میکند که توزیع پارامتر b در طول پیوستار توانایی یکنواخت باشد. در کل، ویژگیهای پارامتر b سؤال پیشنهاد شده در این مطالعه با نتایج یوری (۱۹۷۷) و جنسما (۱۹۷۷) نیز سازگار است. در این دو مطالعه نیز، دشواریهای سؤالات به صورت یکنواختی توزیع شدهاند. این نوع توزیع یکی از مهمترین ضروریات خزانهی سؤال برای CAT است. از آنجا که روش انتخاب سؤال به روش بیشینهی آگاهی است، این ضرورت، معقول به نظر میرسد، زیرا برای تمام آزمودنیها در طول دامنهی توانایی، سؤالی برای اجرا انتخاب میشود که حداکثر میزان آگاهی را ایجاد کند. حال اگر تعداد کافی از سؤالات در یک سطح دشواری ویژه وجود نداشته باشد، این امکان وجود دارد که الگوریتم انتخاب سؤال، سؤالی را که بهینه و مناسب نیست را انتخاب کند. این انتخاب باعث میشود که مقدار کمتر از بهینهی آگاهی سؤال ایجاد شود و در نتیجه، ممکن است که کیفیت اندازهگیری برای سنجش مناسب[۲۲۵] به مقدار مورد انتظار نرسد.
ملاک سوم، هزینهی ساخت و طراحی سؤالات است، که در این مطالعه بهطور مستقیمی برآورد نشده است. با این وجود، یک مکانیسم مکنون برای برآورد غیرمستقیم هزینهی نوشتن سؤال و تلاش برای به حداقل رساندن آن، در روش طراحی خزانهی سؤال ریکیسی مورد استفاده قرار گرفته است. ایجاد سؤالات بهینه با روشهای R، MRP و MTI به رابطه بین پارامترهای سؤال و هزینهی طراحی سؤال، به طور همزمان توجه میکند. البته تفاوت این سه شیوهی ایجاد پارامترهای سؤال در نگاه اول در مفروضات آنها است. روش MTI بر این فرض است که دشوار است تا سؤالاتی با ضرایب تشخیص بالا (یعنی، با مقدار a بالا) نوشته شود و هزینهی طراحی آنها نیز بالا است. بنابراین، روش MTI تلاش میکند تا تعداد سؤالات با ضرایب تشخیص بالا را از طریق شبیهسازی کردن سؤالاتی که شرط حداقل آگاهی تست را داشته باشند، محدود کند (گو و ریکیس، ۲۰۰۷). در دو روش دیگر، یعنی روش R و قسمت R روش MRP، بر تصادفی سازی رابطهی بین پارامترها توجه دارد. بنابراین از لحاظ هزینهی طراحی بهصرفه نیستند، چون به تعداد بالایی سؤال نیاز دارند و سؤالاتی با توزیع یکنواخت ایجاد میکند. امّا روش P (در روش MRP)، فرض میکند که طراحی سؤالاتی با مشخصات معین و یا انتخاب آنها در میان سؤالات موجود، کم هزینهتر از طراحی سؤالات با مشخصات یکسان است. این روش هزینهی ایجاد سؤال را از طریق مدل یابی کردن مشخصات سؤال (یعنی، رابطهی بین پارامترهای IRT) به حداقل میرساند و سؤالاتی شبیهسازی میکند که مشابه با سؤالات موجود در خزانهی عملیاتی است.
به عبارت دیگر، بهتر است که خزانههای سؤال برای آزمونهای CAT، دقت اندازهگیری مشابهی در سراسر دامنهی توانایی ایجاد کنند. بررسی دقیقتر به خزانهی عملیاتی نشان میدهد که سؤالاتی با ضرایب تشخیص بالاتر در دامنهی پارامتر b بین ۷۲/۱ تا ۴ قرار میگیرند. در عمل، زمانیکه از خزانهی عملیاتی به طور فراوانی استفاده میشود، سؤالاتی با ضرایب تشخیص بالا که به احتمال زیادی توسط الگوریتمهای CAT انتخاب میشوند، کنار گداشته میشوند، طراحی سؤالاتی با چنین ضرایب تشخیص بالایی برای جایگزینی با سؤالات قبلی بسیار دشوار است. بنابراین، این نتیجه ممکن است این شک را ایجاد کند که آیا در این مرحله عملکرد یکسانی بر روی سطوح توانایی یکسان با مراحل قبل، میتواند به آسانی تکرار شود. با این وجود، خزانههای بهینهای که از طریق روش ریکیسی طراحی میشوند، دارای سؤالات بیشتری با ویژگیهای یکنواخت در طول پیوستار توانایی هستند، در نتیجه این نوع خزانهها عملکرد بهتری از نظر دقت و صحت طبقهبندی، در حداکثر سطوح توانایی مکنون ایجاد میکنند. در مجموع، خزانههای سؤالی که به طور بهینه طراحی میشوند، عملکرد بهتری نسبت به خزانهی سؤال عملیاتی در شاخصهای ارزیابی خزانههای سؤال ایجاد میکنند. خزانههای MTI خزانههای کوچکتری با میانگین پارامتر a کوچکتر ایجاد میکنند. روش P، رابطهی بین پارامترهای سؤال را برقرار میکند. این خزانهها از نظر اندازهی خزانهی سؤال و متوسط مقادیر پارامتر a، b متفاوت بودند. این نتایج، مشابه با تحقیقات یوری (۱۹۷۷)، گو و ریکیسی (۲۰۰۷)، هی و ریکیسی (۲۰۱۰) بود، در این پژوهشها نیز این ویژگیها به عنوان ویژگیهای برتر خزانههای سؤال CAT توصیه شدند. پارامترهای a، در همهی ROP ها در حدود ۱/۱ با حداقل مقداری بیشتر از ۸/. به اوج خود میرسند. همچنان که نتایج نیز نشان میدهند، روش ایجاد سؤال R، MRP نسبت به روش MTI ، با وجود تمام عوامل برابر، به ایجاد ROPهایی با متوسط مقادیر بالاتر تمایل دارند. دلیل اینکه روش MTI متوسط مقادیر پایینتری ایجاد میکند، به دلیل این است که از قاعدهی حداقل آگاهی آزمون یکسان برای آزمودنیهایی با توانایی واقعی متفاوت استفاده میکند. در این مطالعه برای به حداقل رساندن این مشکل، برای آزمودنیهایی با سطوح متفاوت توانایی واقعی، حداقل آگاهیهای متفاوتی را به کار بردیم. به این صورت که متوسط آگاهی آزمون از طریق دادههای آزمون CAT عملیاتی بدست آمد و از این طریق که آگاهی هدف آزمون برای آزمودنیهایی که توانایی واقعی شان درون سه نمره برش متفاوت قرار دارد، به صورت مجزا محاسبه شد. این سه نمره برش بر اساس تحقیقات متفاوت که بر روی این آزمون پیشرفت ریاضی صورت گرفته بود، بدست آمد و به منظور طبقهبندی آزمودنیها درون چهار سطح عملکرد ایجاد شد. از آنجا که برای آزمودنیهایی که توانایی واقعیشان در طول دامنهی نمره برش مشخص شدهای دورتر از حد متوسط قرار میگیرد، آگاهی هدف آزمون در سطح پایینتری قرار میگیرد. مشخص است که با بالا رفتن مقادیر حداقل آگاهی آزمون، روش MTI به ایجاد ROP هایی با متوسط مقادیر بالاتر گرایش پیدا میکند. در پرتو ویژگیهای خزانهی سؤال عملیاتی به کار رفته در این مطالعه، به نظر میرسد که، شیوهی به کار رفته در این مطالعه برای قرار دادن آگاهی هدف آزمون، به خوبی کار میکند، زیرا ROP های ایجاد شده دارای مقادیر پارامتر سؤال معقولی میباشند. در کل، ویژگیهای پارامتر (a) سؤال پیشنهاد شده در این مطالعه با نتایج یوری (۱۹۷۷) و جنسما (۱۹۷۷) سازگار است.
نتایج نشان میدهد که از طریق بهسازی خزانههای سؤال عملیاتی، به طوریکه به توزیع سؤالات موجود در خزانههای بهینه نزدیک شود، میتواند نتیج مناسبی ایجاد کند. برای مثال، با بررسی خزانهی سؤال عملیاتی که در این پژوهش مورد استفاده قرار گرفت، متوجه میشویم که اگر سؤالاتی با ضرایب تشخیص متوسطتری به دامنهی پایین سطوح توانایی اضافه شود و تعدادی سؤال با ضرایب تشخیص بالا از دامنههای بالاتر سطوح توانایی، برای استفادههای بعدی از خزانهی سؤال خارج شود، عملکرد خزانهی عملیاتی بهتر خواهد شد.
رویکرد ریکسی در مقابل روش برنامهنویسی ریاضی و تلفیق این دو رویکرد
نتایج این پژوهش نشان داد که تعمیم رویکرد ریکیسی در طراحی خزانههای سؤال در موقعیتهایی که سؤالات با مدل سه پارامتری مدرج میشوند، به خوبی کار میکند. در مقایسه با رویکرد برنامهنویسی ریاضی، رویکرد ریکیسی شیوهی CAT را به صورت سرراستتری شبیهسازی میکند. این رویکرد با شیوههای متفاوت انتخاب سؤال و فرایند برآورد توانایی مطابقت کامل دارد و دارای انعطاف بیشتری نسبت به رویکرد برنامهنویسی ریاضی است. همچنین کاربرد این روش بسیار آسانتر است و نیاز به نرم افزارهای پیچیده ندارد. در این رویکرد قیود مربوط به صفات غیر آماری از قبیل صفات محتوایی، در مرحلهی اول طراحی خزانه وارد برنامهنویسی میشود و خزانهها را به بخشهای کوچکتری بخشبندی میکند. در مقابل رویکرد برنامهنویسی ریاضی ساختاربندی ریاضی بیشتری دارد و تمام قیود آماری و غیر آماری را به صورت کمّی در میآورد و سپس بهترین راه حل بهینه را از طریق برنامهنویسی خطی جستجو میکند. امّا این روش به کاربرد رویکرد انتخاب سؤال “تست سایه” در شبیهسازی CAT نیاز دارد. رویکرد ریکیسی روی تصادفیسازی کردن پارامترهای سؤال در شبیهسازی تاکید دارد، در حالیکه رویکرد برنامهنویسی ریاضی روی بهینهسازی سؤالات “ساختگی[۲۲۶]” از قبل تعریف شده تاکید دارد. امّا دو رویکرد در پایان کار شبیهسازی به نتایج یکسانی میرسند. رویکرد ریکیسی در بعضی جنبهها مشابه رویکرد برنامهنویسی ریاضی است. یکی از شباهتهای مهم بین این دو رویکرد این است که، روش شبیهسازی خزانهی سؤال P (در MRP) و رویکرد برنامهنویسی ریاضی در مورد کاهش هزینههای طراحی مانند یکدیگر عمل میکنند، به طوریکه هر دو فرایند طراحی خزانهی سؤال هزینهها را به حداقل میرسانند. رویکرد برنامهنویسی ریاضی تابع هزینه را که معکوس تعداد سؤالات واقعی با ترکیب معینی از صفات شامل پارامترهای IRT سؤالات است، تعریف میکند. این رویکرد فرض میکند که ایجاد سؤالات واقعی با ترکیب مشخص پارامترهای سؤال، هزینه کمتری دارند. این ایده مشابه روش P است، که در آن روش در فرایند شبیهسازی به احتمال بیشتری سؤالات در طول خط رگرسیون پارامترهای b روی پارامترهای a سؤالات واقعی، ایجاد میشود.
هریک از این دو رویکرد بر همین اساس میتوانند ایدههای مشابهی از این نوع را از یکدیگر اقتباس کنند، تا طراحی خزانهی سؤال را بهبود دهند. در این پژوهش، ما ویژگیهای برتر برنامهنویسی ریاضی شامل کدگذاری دقیق ریاضی ویژگیهای غیرآماری در ارتباط با ویژگیهای آماری را با رویکرد ریکیسی تلفیق کردیم. برای دوری از دشواریهای روش انتخاب سؤال تست سایه نیز از مدل انتخاب سؤال حداقل انحرافات وزندار (WDM) استفاده کردیم. نتایج نشان داد که از طریق این روش میتوانیم در سرهم کردن تستهای CAT میزان تخطی از قیود محتوایی را به حداقل برسانیم.
بحث و نتیجهگیری از یافتههای پژوهش
در این بخش یافتههای پژوهش را با سؤالات پژوهش مقایسه و هر یک را بررسی خواهیم کرد:
سؤال اول: آیا طراحی خزانه سؤال بر اساس روش P-optimal یا R-optimal میتواند اندازه سؤالات خزانه سؤال عملیاتی را بدون کاهش دقت اندازه گیری، کاهش دهد؟
پاسخ سؤال اول: نتایج ارزیابی ROP ها با بهره گرفتن از ملاکهای مشخص، نشان داد که در مجموع همهی ROP ها بهتر از OP در ملاکهای ارزیابی عمل میکردند. صرف نظر از عامل کنترل مواجهه S-H، ایجاد تعادل محتوایی و پهنای bin، دقت و صحت اندازهگیری در ROP ها بهتر، و دارای کارایی بیشتر و استفاده متعادلتر از سؤالات بود. حال جالب است که OP شامل سؤالات بیشتری نسبت به هر یک از ROPها بودند. همچنین، نرخ همپوشی در OP ها بالاتر از ROP ها بود. در کل، متوسط مقادیر پارامتر a در ROPهایی که بالاتر بود، باعث میشد که دقت و صحت اندازهگیری بهتر و صحت طبقهبندی بیشتری نسبت به ROPهای دیگر، با متوسط مقادیر پارامتر a پایینتر و OP ها داشته باشند.
سؤال دوم: آیا روش شبیهسازی بهینه خزانه سؤال بر اساس روش P-optimal یا R-optimal ، قابل تعمیم به مدل های دو و سه پارامتری میباشد؟
سؤال سوم: نحوهی طراحی خزانههای سؤال بهینه برای CAT به روش شبیهسازی مونت کارلو ریکیسی در مدل دو و سه پارامتری چه تفاوتی با مدل یک پارامتری دارد؟
پاسخ سؤال دوم و سوم: نتایج نشان داد که، گسترش روش ریکیسی (۲۰۰۳)، بخوبی در طراحی خزانهی سؤال بهینه در موقعیتهای ویژه، کار میکند و در مقایسه با روش برنامهنویسی ریاضی، شیوهی CAT را بهطور سرراستتری شبیهسازی میکند و فرایند برآورد توانایی در آن انعطافپذیرتر میباشد (گو، ۲۰۰۷). روش ریکیسی (۲۰۰۳)، روی تصادفیسازی پارامترهای سؤال در شبیهسازی CAT تاکید دارد (هی، ریکیسی، ۲۰۱۱). همچنین استفاده از این شیوه، طرحهای سودمندی را ایجاد میکند که مزیت CAT را از بین نمیبرد (ریکیسی، ۲۰۱۰). در کل، این روششناسی بسیار کلی میباشد و میتواند در شکلهای دیگری از توزیعهای آزمودنی و شکلهای متفاوتی از مدلهای IRT نیز بهکار رود. به خصوص، این روش زمانیکه سؤالات با مدل دو و سه پارامتری مدرج میشوند، از پیچیدگی خاصی برخوردار است، زیرا میزان آگاهی سؤالات، حتی زمانیکه پارامترهای b برابری دارند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند. در مدلهای دو و سه پارامتری، آگاهی سؤال به ترتیب با ترکیب دو و سه پارامتر تعیین میشود (لیکسیونگ و ریکیسی، ۲۰۰۷). امّا، نتایج این پژوهش نشان داد که با وجود دشواریهایی که رویکرد ریکیسی در ایجاد سؤالاتی که بر اساس مدل سه پارامتری مدرج میشود، دارد، این رویکرد از طریق سه روش R، MRP، MTI میتواند سؤالات بهینهای که با مدل سه پارامتری مدرج شود را ایجاد کند. بنابراین، تعمیم روش P-optimal یا R-optimal ، به مدل سه پارامتری امکان پذیر است.
سؤال چهارم: ویژگیهای مطلوب خزانههای سؤال بهینه برای CAT با بهره گرفتن از روش برنامهنویسی اعداد صحیح WDM چه هستند؟
پاسخ سؤال چهارم: نتایج این تحقیق نشان داد که تلفیق رویکرد برنامهنویسی WDM به همراه رویکرد اکتشافی ریکیسی، نتایج مطلوبی ایجاد میکند. رویکرد WDM با کمّی سازی ویژگیهای محتوایی به همراه ویژگیهای روانسنجی سؤالات، توانست میزان تخطی تستها را از قیود محتوایی کاهش دهد. روش WDM به صراحت ویژگیهای آماری و غیر آماری سؤال را با تعادل مطلوبی بین ویژگیهای اندازهگیری و ساختاری در نظر گرفت. در این پژوهش، این ویژگیها بهوسیلهی وزنهایی که توسط طراحان اولیهی تست انتخاب شد، در مدل وارد شد. این روش برخلاف روش تست سایه، ویژگیهای محتوایی را به عنوان اهداف به جای قیود فرمولبندی کرد. انحراف از اهداف محتوایی وزن داده شد و در تابع هدف به همراه فاصلهی آگاهی سؤال از مقدار هدف قرار گرفت. از این طریق توانستیم مدلهای غیرقابل حلّ را قابل اجرا کنیم و تستهایی با مقدار تخطی کمتری ایجاد کنیم. این نتایج هم راستا با تحقیقات بروک، کندریک و مروس، ۱۹۹۸؛ استوکینگ، سوانسون و پیرمن ، ۱۹۹۳ میباشد.
سؤال پنجم: خزانه سؤال بهینه برای CAT زمانی که در الگوریتم انتخاب سؤال، مواجههۀ بیش از حد سؤال کنترل نمیشود در مقابل زمانی که مواجهه بیش از حد کنترل میشود، چگونه طراحی میشود؟
پاسخ سؤال پنجم: یکی از پیشنهادات پژوهشی ریکیسی (۲۰۱۰) این بود که؛ این رویکرد (اکتشافی) میتواند زمانی که کنترل مواجهه سؤال و سیستم امنیتی آزمون از اهمیت بسزایی برخوردار است نیز بهکار رود (ریکیسی، ۲۰۱۰). بنابراین، ما در این پژوهش این عامل را وارد برنامهنویسی کردیم. طراحی خزانههای سؤال بهینه از طریق رویکرد اکتشافی ریکیسی زمانی که عامل S-H وارد میشود، کار بسیار دشواری است، زیرا در این روش سؤالات فرضی هستند و از یک خزانهی نامتناهی ایجاد میشوند. تا به حال این روش در رویکرد اکتشافی ریکیسی وارد نشده بود. ما در این پژوهش با ذخیرهسازی سؤالات شبیهسازی شده و اجرای مجدد این خزانهی بهینه بر روی نمونهای از همان آزمودنیهای جمعیت هدف، توانستیم روش S-H را در این رویکرد وارد کنیم. البته این کار بسیار زمانبر بود و اجراهای هریک از برنامهها، چندین روز به طول انجامید. امّا با بهره گرفتن از جداول آگاهی توانستیم عامل S-H را با رویکرد اکتشافی همراه کنیم.
سؤال ششم: نحوهی عملکرد، ویژگیهای آماری و غیرآماری و اندازهی خزانه سؤال بهینه برای CAT زمانی که در الگوریتم انتخاب سؤال، مواجهه بیش از حد سؤال کنترل نمیشود در مقابل زمانی که مواجهه بیش از حد کنترل میشود، چگونه میباشد؟
پاسخ سؤال ششم: نتایج نشان داد که زمانی که عامل کنترل مواجهه S-H در شبیهسازی خزانههای بهینه وارد میشود، صرف نظر از پهنای b-bin، دقت و صحت اندازهگیری سطح توانایی افزایش پیدا میکند. زیرا سؤالات به صورت متعادلتری استفاده میشود و همهی سطوح توانایی به یک میزان دارای دقت اندازهگیری میشوند. به عبارت دیگر، خزانههای سؤال بهینهای که با کنترل مواجهه S-H طراحی میشوند بهتر از خزانههای سؤال عملیاتی از نظر اندازه خزانه، دقت اندازهگیری و امنیت آزمون عمل میکنند. بنابراین میتوانیم ملاحضه کنیم که مکانیزم کنترل مواجهه خیلی خوب کار میکند. زیرا نرخهای مواجهه برای همهی سؤالات را در حدود و یا پایینتر از نرخ مواجهه هدف (۳۳/۰) نگه میدارد. بررسی دقیقتر به دقت اندازهگیری در هر یک از سطوح توانایی و بررسی نمودارهای مربوط به آگاهی شرطی تست، نشان میدهد که، خزانههای سؤالی که با کنترل مواجهه سؤال طراحی میشوند، دارای دقت بیشتری نسبت به خزانههایی که بدون کنترل مواجهه طراحی میشوند، هستند. همچنین، در بیشتر سطوح توانایی نیز دارای آگاهی بیشتری میباشند. این نتیجه به دلیل این است که، سؤالات اضافه شده به خزانههای بهینه با کنترل مواجهه S-H دارای سؤالاتی با ضرایب تشخیص بالاتری هستد. بدون تردید، زمانیکه، این مولفه در طراحی خزانهی سؤال اضافه میشود، به خزانهی سؤال بزرگتری نیاز داریم.
سؤال هفتم: خزانه سؤال بهینه برای CAT زمانیکه در الگوریتم انتخاب سؤال تعادل محتوایی وارد میشود چگونه طراحی میشود و عملکرد آنها چگونه است؟
پاسخ سؤال هفتم: یکی دیگر از پیشنهادات پژوهشی ریکیسی در تحقیقات خود این بود که؛ تعادل محتوایی متنوع یکی از مهمترین مولفهها در سنجش انطباقی میباشد که میتوان آن را در الگوریتمهای انتخاب سؤال CAT گنجاند (هی و ریکیسی، ۲۰۱۰؛ ۲۰۱۱؛ گو و ریکیسی، ۲۰۰۷)، بنابراین در این پژوهش این عامل وارد برنامهی شبیهسازی شد، البته لازم به ذکر است که در تحقیقات آنها این عامل در نظر گرفته میشد، ولی از طریق پارتیشنبندی کردن خزانهی بهینه به خزانههای کوچکتر این کار صورت میگرفت و هیچ کدام از این تحقیقات این عامل را به صورت کمّی وارد تحلیل نکردند. در این پژوهش تعادل محتوایی سؤالات از طریق روش WDM ایجاد شد. به طوریکه از پیش، کدهای محتوایی سؤالات توسط متخصصین موضوع مشخص و به همراه ویژگیهای اماری وارد برنامه شد. از آنجا که تعداد سؤالات موجود در خزانههای بدون تعادل محتوایی و با تعادل محتوایی یکسان نیستند، امکان مقایسهی این خزانهها وجود ندارد. با این وجود نتایج نشان میدهد که زمانیکه تعادل محتوایی در طراحی خزانهی سؤال وارد میشود، دقت اندازهگیری بالا میرود، همچنین، سؤالات با ویژگیهای روانسنجی دقیقتر در طول شبیهسازی ایجاد میشود که با قیود محتوایی هم ارز است. دامنهی سطوح دشواری سؤالات نیز نسبت به خزانههای بدون تعادل محتوایی کاهش مییابد. زمانکه عامل S-H در این نوع خزانهها وارد میشود، میزان تخطی از قیود محتوایی در تستهایی که سرهم میشوند، بیشتر میشود. در مجموع وارد شدن قیود محتوایی در رویکرد ریکیسی، میتواند نتایج مطلوبی ایجاد کند.
سؤال هشتم: آیا خزانههای سؤال بهینهای که بوسیلۀ شبیهسازی طراحی میشوند، از نظر اندازه، دقت و صحت اندازهگیری و دیگر ملاکهای ارزیابی با خزانههای سؤال عملیاتی واقعی تفاوت دارند؟
پاسخ سؤال هشتم: نتایج این پژوهش نشان داد که صرف نظر از عواملی چون، پهنای b-bin ، عامل کنترل مواجهه، تعادل محتوایی و روش ایجاد سؤال، تمام خزانههای بهینهی ایجاد شده در این مطالعه، بهتر از خزانههای عملیاتی عمل میکنند. این نتایج با تحقیقات گو و ریکیسی، ۲۰۰۷؛ هی و ریکیسی، ۲۰۱۰ ؛ ۲۰۱۱ همسو میباشد. هریک از ۱۸ خزانهی بهینه دارای ویژگی منحصر به فردی بودند که این امکان را برای ما ایجا میکند که بسته به نیاز و ضرورتهای کاربردی از هر یک استفاده کنیم.
در واقع در این پژوهش از سه روش برای طراحی الگوهای بهینهی خزانهی سؤال CAT استفاده شد. در کل، هر سه رویکرد ساخت خزانهی سؤال، بهتر از خزانهی سؤال عملیاتی در کنترل مواجهه سؤال و ایجاد امنیت آزمون عمل میکنند. در مطالعهی اخیر علاوه بر اندازهی خزانهی سؤال، روش bin-and-union به منظور شرح ویژگیهای پارامتر a و b نیز به کار رفت. در میان چهار عاملی که در طراحی خزانههای سؤال بهینه دستکاری شد، پهنای b-bin بر اندازهی خزانهی سؤال تاثیر گذاشت، درحالیکه، روشهای ایجاد سؤال بر متوسط مقادیر پارامتر a تاثیرگذار بود. کنترل مواجهه S-H بر میزان مواجهه بیش از حد سؤالات و کنترل مواجهه آنها تاثیر داشت، از اینرو، نه تنها بر اندازهی خزانهها بلکه بر متوسط پارامتر ضریب تشخیص آنها نیز تاثیر گذار بود. عامل چهارم که عامل ایجاد تعادل محتوایی است، در یک فضا و قالب مجزا اجرا شد. به طوریکه، نه تنها بر اندازهی خزانه، ویژگی پارامترهای سؤال تاثیرگذار بود، بلکه بر میزان دقت، صحت طبقهبندی، مواجهه سؤال، میزان آگاهی و همپوشی سؤال نیز تاثیر گذار بود.
نتایج نشان داد که رویکرد MTI خزانههای سؤال کوچکتری را ایجاد میکند که شامل سؤالاتی با پارامترهای a کوچکتری میباشد. قسمت P رویکرد MRP یا مدل پیشبینی، نوعی همبستگی بین پارامترهای سؤال ایجاد میکند، و گاهی بهتر از رویکرد MTI عمل میکند. دلیل این امر این است که، از آنجا که این رویکرد بر اساس اطلاعات بدست آمده از خزانهی سؤال عملیاتی ساخته شده و خزانهی سؤال عملیاتی نیز در برخی از دامنههای سطوح توانایی مکنون دقت اندازه گیری بیشتری ایجاد میکند. با بررسی دقیقتر خزانهی سؤال عملیاتی در مییابیم که بین ضرایب تشخیص سؤالات و پارامتر b در برخی سطوح توانایی همبستگی معناداری وجود دارد، به عبارت دیگر، در خزانهی سؤال عملیاتی سؤالات سختتر از ضرایب تشخیص بالاتری برخوردارند. زیرا برای طراحان سؤال ساخت سؤالات دشوار که ضریب تشخیص بالایی داشته باشند، آسانتر است. از اینرو، ما تنها در همین دامنهی توانایی از رویکرد P استفاده کردیم و برای بقیهی سطوح دیگر توانایی از رویکرد R استفاده کردیم. بنابراین، علاوه بر کاربرد رویکرد R به صورت جداگانه، از روش آمیختهی R و P استفاده کردیم. در این پژوهش، به دلیل اینکه نتایج را واقعبینانهتر کنیم، از نتایج خزانهی سؤال عملیاتی و اطلاعات پیشین استفاده کردیم، در عمل، زمانی که خزانهی سؤال عملیاتی به طور فراوانی استفاده میشود، سؤالاتی با ضریب تشخیص بالا، بیشتر به کار میروند، بنابراین، طراحی چنین سؤالاتی برای جایگزینی با سؤالات قبلی، بسیار مشکل است. مخصوصاً اگر در الگوریتم CAT، روش کنترل مواجهه بیش از حد نیز وارد شود، این مشکل دو چندان میشود، زیرا این سؤالات حتی اگر انتخاب هم شوند، نمیتوانند اجرا شوند. این قضیه این شک را ایجاد میکند که آیا عملکرد خزانهی سؤال در طول پیوستار توانایی به صورت یکسانی تکرار میشود. امّا خزانههای سؤال بهینهی طراحی شده بر اساس روش ریکیسی، سؤالات بیشتری که به طور برابری در طول دامنهی وسیعتری از سطوح توانایی پراکنده میشوند، دارند. در نتیجه در عمل، خزانههای سؤال بهینه بهتر از خزانههای سؤال عملیاتی در بیشتر سطوح توانایی عمل میکنند. الگوی ساخته شده برای خزانهی سؤال بهینه، به دنبال حداکثر ترکیب مطلوب از سؤالات است. به طوری که، تعداد زیادی از خزانههای سؤال مجزا بر اساس الگوریتم CAT سرهم کند. با این وجود، در عمل خزانهی مجزایی که کاملاً بهینه باشد، یافت نمیشود، زیرا محدود به تعدادی از عوامل و ترکیبات متفاوتی از سؤالات است که ممکن است دقت اندازهگیری مشابهی ایجاد نکند. به همین دلیل است که دو خزانهی بهینه کاملاً متفاوت به نظر میرسند و ممکن است در بعضی مفاهیم بهینه باشند.
سؤال نهم: آیا الگوی طراحی شده بر اساس این پژوهش، زمینهای برای بهینهسازی کارایی شیوهها و فرایند تهیه و تنظیم سوالات آزمونهای CAT با بهره گرفتن از اتوماتیک کردن تدوین خزانه سوالات، فراهم میسازد؟
پاسخ سؤال نهم: پاسخ این سؤال به صورت مفصل در بخش تلویحاتی در مورد ساخت خزانههای سؤال و مدیریت یا نگهداری از آنها، ارائه شده است.
سؤال دهم: آیا میتوان الگویی را طراحی کرد که زمینهساز طراحی خزانه سوال، به منظور جلوگیری از اتلاف سرمایهها در مراحل مختلف تهیه آزمونهای CAT باشد؟
پاسخ سؤال دهم: پاسخ این سؤال به صورت مفصل در بخش تلویحاتی در مورد ساخت خزانههای سؤال و مدیریت یا نگهداری از آنها، ارائه شده است.
یافتههای پژوهش
در قسمت زیر مجموعهای از یافتهها پژوهش حاضر را به صورت خلاصه بیان خواهیم کرد:
اول: همانطور که مشاهده کردیم، نتایج نشان داد که بدون توجه به عامل پهنای b-bin ها، خزانههای سؤال بهینه بهتر از خزانههای سؤال عملیاتی از نظر اندازه خزانه و دقت اندازهگیری عمل میکردند. اگرچه خزانههایی که با پهنای b-bin = 0.2 ساخته میشدند، از دقت اندازهگیری بالاتری در برآورد توانایی نسبت به خزانههایی که با پهنای b-bin =0.4 طراحی میشدند، برخوردار بودند. امّا، این نتایج حاوی این تلویحات بود که خزانههایی که با پهنای ۴/۰ طراحی میشوند، دارای تعداد کمتری سؤال هستند، که از لحاظ اقتصادی این الگوها را به صرفهتر میکند. بنابراین، اگر در ساخت خزانههای سؤال، عامل اقتصادی مهم است، این مورد میتواند مدّنظر قرار گیرد.
دوم: در مجموع، در اغلب الگوها بدون توجه به عامل پهنای b-bin ها، خزانههای بهینهی MRP از دقت اندازهگیری بالاتری برخوردار بودند، این نوع خزانهها نسبت به خزانههای R دارای سؤالات کمتر و نسبت به خزانههای MTI دارای سؤالات بیشتری بودند. امّا میزان دقت و صحت اندازهگیری آنها بیشتر از دو خزانهی دیگر بود. خزانههای MRP که با پهنای ۴/۰ طراحی میشدند، نسبت به آنهایی که با پهنای ۲/۰ طراحی میشدند، از امنیت پایینتری برخوردار بودند. امّا در کل، این نوع خزانهها، چون بر اساس ویژگیهای دقیق پارامترها و جوامع مورد نظر طراحی میشوند، دارای دقت بالاتری میباشند.
سوم: خزانههایی که با روش MTI و با پهنای ۴/۰ طراحی میشدند، از امنیت بالاتری نسبت به دو خزانهی بهینهای که پهنای ۴/۰ دارند، برخوردار بودند. بنابراین، توصیه میشود که، زمانیکه به صرفه بودن طراحی خزانههای سؤال و امنیت آزمون عامل بسیار مهمی میباشند، برای کاهش تعداد سؤالات مورد نیاز در خزانهی CAT از روش MTI با پهنای ۴/۰ استفاده شود.
چهارم: همچنین اگر، در آزمونی دقت و صحت اندازهگیری برای طبقهبندی و گزینش افراد و امنیت آزمون عوامل مهمی هستند، از روش MRP با پهنای ۲/۰ استفاده شود. بدون توجه به پهنای b-bin ها، خزانههایی که با روش R طراحی میشوند، شباهت زیادی به خزانههای عملیاتی دارند، زیرا بر اساس ویژگیهای پارامترهای سؤالات عملیاتی ساخته شدهاند. نتایج مربوط به این خزانهها نشان میدهد که، ساخت سؤالات به شیوهی تصادفی و بدون برنامهریزی برای ویژگیهای مورد نظر، می تواند باعث اتلاف هزینه و همچنین دقت کمتر باشد.
پنجم: همچنین، نتایج نشان داد که بدون توجه به عامل پهنای b-bin خزانههای سؤال بهینهای که با کنترل مواجهه S-H طراحی شدند بهتر از خزانههای سؤال عملیاتی از نظر اندازه خزانه، دقت اندازهگیری و امنیت آزمون عمل میکردند. بنابراین میتوانیم ملاحضه کنیم که مکانیزم کنترل مواجهه خیلی خوب کار میکند. زیرا نرخهای مواجهه برای همهی سؤالات را در حدود و یا پایینتر از نرخ مواجهه هدف (۳۳/۰) نگه میدارد. بررسی دقیقتر به دقت اندازهگیری در هر یک از سطوح توانایی و بررسی نمودارهای مربوط به آگاهی شرطی تست، نشان داد که، خزانههای سؤالی که با کنترل مواجهه سؤال طراحی شدند، دارای دقت بیشتری نسبت به خزانههایی که بدون کنترل مواجهه طراحی شدند، بودند. همچنین، در بیشتر سطوح توانایی نیز دارای آگاهی بیشتری بودند. این نتیجه به دلیل این بود که، سؤالات اضافه شده به خزانههای بهینه با کنترل مواجهه S-H دارای سؤالاتی با ضرایب تشخیص بالاتری بودند.
ششم: از نظر دقت اندازهگیری خزانههای بهینهای که با پهنای ۲/۰ ساخته میشدند، با خزانههایی که با پهنای ۴/۰ طراحی میشدند، تفاوت معناداری ندارند. امّا، خزانههایی که با پهنای ۴/۰ طراحی میشدند، دارای تعداد کمتری سؤال هستند، که از لحاظ اقتصادی این الگوها را به صرفهتر میکند.
هفتم: در مجموع، به نظر میرسد که خزانهی MTI که در آن عامل S-H وارد میشد، از سؤالات موجود در خزانه استفادهی بیشتری میکرد و دارای حداقل سؤالات کم مواجهه شده نیز بود. همچنین، از نرخ همپوشی تست کمی با وجود اینکه دارای حداقل تعداد سؤال بود، برخوردار بود. در مجموع، بدون توجه به عامل پهنای b-bin ها، خزانههای بهینهی MTI از دقت اندازهگیری بالاتری برخوردار بود، این نوع خزانهها نسبت به خزانههای R و MRP دارای سؤالات کمتری بود. به طوریکه میزان دقت و صحت اندازهگیری آنها از خزانههای MRP در زمانیکه پهنای b-bin ها برابر با ۲/۰ است، با تفاوت ناچیزی کمتر است و در زمانیکه پهنای b-bin ها برابر با ۴/۰ است، با تفاوت ناچیزی بیشتر است. در کل، این نوع خزانهها، از امنیت بالایی نیز برخوردارند و از سؤالات استفادهی بیشتری میکنند. بنابراین، توصیه میشود که، زمانیکه به صرفه بودن طراحی خزانههای سؤال و امنیت آزمون عامل بسیار مهمی میباشند، برای کاهش تعداد سؤالات مورد نیاز در خزانهی CAT از روش MTI با کنترل مواجهه سؤال استفاده شود. امّا، این نکته باید مدّنظر باشد که این خزانه از حداقل مقدار آگاهی برخوردار است. همچنین اگر، در آزمونی دقت و صحت اندازهگیری برای طبقهبندی و گزینش افراد و امنیت آزمون عوامل مهمی هستند، و به صرفه بودن عامل تعیین کنندهای نیست، از روش MRP استفاده شود. زیرا بدون توجه به پهنای b-bin ها، از دقت و آگاهی بالایی در تمام سطوح اندازهگیری برخوردارند.
هشتم: زمانیکه، تعادل محتوایی یکی از عوامل مهم در طراحی خزانهی سؤال است. وارد کردن این عامل در طراحی خزانهی سؤل میتواند، دقت و صحت اندازهگیری را بالا ببرد، همچنین، با برنامهریزی دقیقتری سؤالات را شبیهسازی کند. این نتیجه باعث میشود که نرخ کم مواجهه شدن سؤالات به حداقل خود برسد.
نهم: اگر علاوه بر عامل تعادل محتوایی، امنیت آزمون هم مهم باشد و عاملی همچون، کنترل مواجهه سؤال نیز در طراحی وارد شود، میزان تخطی از قیود تست بیشتر از زمانی میشود که عامل کنترل مواجهه وارد نشده بود.
دهم: در مجموع، همانطور که نتایج نیز نشان میدهند، خزانههای سؤال عملیاتی اریب و خطای قابل توجهی برای آزمودنیهایی که در سطوح بالای و پایین توانایی قرار میگیرند، ایجاد میکرد، که دلیل آن کمبود سؤالاتی با مقادیر b بالا و پایین میباشد؛ درحالی که، ROP های ایجاد شده دارای چنین مشکلی نیستند.
یازدهم: همچنان که نتایج نیز نشان میدهند، حتی در خزانههایی که عامل S-H در آن وارد نشده بود، تعداد سؤالات بیش مواجهه شده در خزانههای بهینهای که بدون روش کنترل مواجهه ساخته شدند، با OP تقریباً مشابه بود، در حالی که، آنها دارای سؤالات کمتری نسبت به OP ها میباشند. امّا اگر نسبت سؤالات بیش مواجهه شده، از طریق تقسیم این تعداد بر اندازهی خزانهی سؤال ارزیابی شود، همهی ROP ها، نسبت به OPها درصد تقریباً بالاتری از سؤالات بیش مواجهه شده نشان میدادند. این نتایج حاکی از این بود که، ROP ها به طور بالقوه، نگرانی بیشتری در مورد مسائل امنیتی آزمون، اگر موضوع با اهمیتی باشد، مطرح میکنند. در واقع، این نتایج میتواند به عواملی از قبیل: کاربرد روش انتخاب سؤال مبتنی بر بیشینهی آگاهی و اجرا نکردن شیوهی کنترل مواجهه سؤال در برنامهی CAT نسبت داده شود. همچنان که در ادبیات پژوهشی مربوط به این حوزه نیز اشاره شده است (برای مثال واینر، ۲۰۰۰؛ وای، ۱۹۹۸)، قاعدهی انتخاب سؤال بر اساس روش بیشینهی درست آگاهی، حتی به تفاوتهای خیلی کوچک در آگاهی سؤال بسیار حساس است. بنابراین، اگر بیشینهی آگاهی به عنوان ملاکی برای انتخاب سؤال در CAT به کار میرود، و هیچ نوع روش کنترل مواجهه سؤال نیز روی آن اجرا نمیشود، همیشه به احتمال زیادی سؤالاتی با ضریب تشخیص بالا در معرض بیش مواجهه قرار میگیرند، در حالیکه، بسیاری از سؤالات با ضریب تشخیص پایین یا حتی متوسط انتخاب نمیشوند. یک راه حل برای فائق آمدن بر مشکل نرخ مواجهه غیر متعادل سؤال که به دلیل کاربرد روش بیشینهی آگاهی، ایجاد میشود، کاربرد و اجرای شیوهی کنترل مواجهه سؤال است.
دوازدهم: در این مطالعه، از بین روشهای کنترل مواجهه سؤال، روش سیمپسون-هتر انتخاب شد، به منظور مطالعهی اثرات این روش، در ساخت خزانههای سؤال روش S-H مورد دستکاری قرار گرفت. در مواردی که روش سیمپسون-هتر در برنامهی CAT وارد نمیشد، بیشینهی مواجهه سؤال به عنوان یک نتیجهی طبیعی افزایش مییافت. امّا در مواردی که روش سیمپسون-هتر وارد میشد، این نگرانی کاهش مییافت. نتایج پیشنهاد میکنند که، بدون توجه به عامل کنترل مواجهه S-H، خزانههای سؤال بهینه بهتر از خزانهی عملیاتی از نظر اندازهی خزانه، دقت و صحت اندازهگیری عمل میکنند. اگرچه، هر کدام از روشهای طراحی خزانهی سؤال دارای ویژگیهای مخصوص به خود است. البته، خزانهی عملیاتی در مقایسه با خزانههای بهینهای که روش سیمپسون-هتر روی آنها اعمال نشده است، از لحاظ نرخ مواجههی سؤال کوچکتر میباشد. ولی با در نظر گرفتن عامل کنترل مواجهه، خزانههای عملیاتی دارای امنیت بالاتری هستند. با این وجود، در خزانهی عملیاتی نرخ همپوشی آزمون در سطوح متوسط توانایی بیشتر از خزانههای بهینه است. با این وجود، گذشته از اینکه این عامل امنیت آزمون CAT را در خزانهی عملیاتی را با خطر روبرو میکند، ولی خزانهی عملیاتی در دامنهی معینی از سطوح توانایی متوسط بهتر از خزانههای بهینه عمل میکند، ولی این تفاوت زیاد نیست. دلیل این امر میتواند این باشد که در خزانهی عملیاتی، سؤالات متوسط دارای ضرایب تشخیص بالایی هستند.
سیزدهم: در مجموع، خزانهی MRP میزان آگاهی بیشتری در طول سطوح توانایی ایجاد میکند، همچنین، دقت اندازهگیری این خزانه و همچنین خزانهی MTI با وجود داشتن حداقل تعداد سؤال، به بیشترین مقدار خود میرسد.
چهاردهم: خزانهی بهینهی R تشابه زیادی با خزانهی عملیاتی دارد، این قضیه نشان میدهد که طراحان در ساخت سؤالات در خزانههای سؤال، اغلب به صورت تصادفی عمل میکنند که این مورد باعث اتلاف هزینه میشود و بسیاری از سؤالات در خزانهی سؤال غیرقابل استفاده میشوند.
پانزدهم: در روش ایجاد سؤال MTI، به دلیل اینکه متوسط آگاهی آزمون، به عنوان حداقل آگاهی آزمون در شبیهسازی وارد میشود، خزانهی سؤالی با ضریب تشخیص کمتر نسبت به دو روش R و MRP ایجاد شدند.
شانزدهم: ولی در مجموع، خزانههای بهینه به تقریباً کمتر از یک سوم سؤال در روش بدون کنترل مواجهه و تقریباً کمتر از یک دوم سؤال در روش کنترل مواجهه سیمپسون-هتر نیاز دارند، و با این وجود، درصد بسیار پایینی سؤالات کم مواجهه شده در هر دو روش نسبت به خزانهی عملیاتی دارند. و در روشی که کنترل مواجهه در طراحی خزانه وارد شد، نیز میزان نرخ سؤالات بیش مواجهه شدهی کمتری دارند. همچنین از میزان دقت اندازهگیری بالایی نیز برخوردار هستند.
هفدهم: به طور کلی، نتایج نشان میدهند که طراحی خزانهی سؤال بهینهی بر اساس دو روش MRP و MTI میتواند با ایجاد حداقل تعداد سؤال، با دقت اندازهگیری بالا، نتایج مطلوبی ایجاد کند. روش MTI خزانهای با توزیع یکنواختتر ضریب تشخیص در تمام سطوح دشواری سؤال ایجاد میکند و خزانهی MRP بر اساس رابطهای که بین دو پارامتر a و b وجود دارد، سؤالاتی با ضریب تشخیص بالا در سطوح خاصی از دشواری ایجاد میکند.
هجدهم: در مجموع، یافتههای آماری نشان میدهد که روششناسی ایجاد شده در این پژوهش میتواند خزانههای سؤالی با مشخصات بهینه ایجاد کنند. این خزانهها قادرند با بهره گرفتن از کارکرد مناسب الگوریتم انتخاب سؤال WDM، یک آزمونی با تعادل محتوایی مناسب برای آزمودنی اجرا کنند و در زمان یکسانی، با دقت و صحت مناسبی توانایی آزمودنیها را برآورد کنند. همچنین، نتایج نشان میدهد که، گسترش روش ریکیسی (۲۰۰۳)، بخوبی در طراحی خزانهی سؤال بهینه در موقعیتهای ویژه، کار میکند و تلفیق آن با رویکرد برنامهنویسی ریاضی نتایج مناسبی ایجاد میکند. در مقایسه با کاربرد روش برنامهنویسی ریاضی به تنهایی، شیوهی CAT را بهطور سرراستتری شبیهسازی میکند و فرایند برآورد توانایی در آن انعطافپذیرتر میباشد (گو، ۲۰۰۷).
نوزدهم: روش ریکیسی (۲۰۰۳)، روی تصادفیسازی پارامترهای سؤال در شبیهسازی CAT تاکید دارد (هی، ریکیسی، ۲۰۱۱). همچنین استفاده از این شیوه، طرحهای سودمندی را ایجاد میکند که مزیت CAT را از بین نمیبرد (ریکیسی، ۲۰۱۰).
طراحی و کاربرد الگوهای تهیهی خزانهی سؤال در بهینه سازی کارکرد سنجش انطباقی کامپیوتری در آزمونهای سرنوشت ساز- قسمت ۱۰۴