วันอาทิตย์ที่ 27 กุมภาพันธ์ พ.ศ. 2554

ความเชื่อมั่น (Reliability)

ความเชื่อมั่นของแบบทดสอบคือค่าความคงที่ของคะแนนที่วัดได้จากแบบทดสอบฉบับนั้น กล่าวคือเมื่อนำแบบทดสอบไปวัดกับผู้ทำแบบทดสอบกลุ่มเดียวกัน 2 ครั้ง หรืออาจจะหลายครั้ง  คะแนนที่ได้จากการวัดจะมีความคงที่  แบบทดสอบที่มีความเชื่อมั่นสูงจะเป็นแบบทดสอบที่ผู้ทำแบบทดสอบไม่ว่าจะวัดกี่ครั้งคะแนนที่ได้จากการวัดก็จะเหมือนเดิม หรืออาจจะสูงหรือต่ำบ้างเพียงเล็กน้อย ในทางกลับกันแบบทดสอบที่มีความเชื่อมั่นต่ำจะเป็นแบบทดสอบที่ผู้ทำแบบทดสอบกลุ่มเดิมทำแบบทดสอบกี่ครั้งคะแนนที่ได้ก็จะเปลี่ยนแปลงไม่คงที่ ซึ่งบางครั้งก็ได้คะแนนสูง บางครั้งก็ได้คะแนนต่ำ จึงส่งผลให้แบบทดสอบนั้นขาดความน่าเชื่อถือ ความเชื่อมั่นของแบบทดสอบมีค่าอยู่ระหว่าง 0.00-1.00 แบบทดสอบที่มีค่าความเชื่อมั่นเป็น 1.00 หมายความว่าแบบทดสอบฉบับนั้นมีค่าความเชื่อมั่นสูง  แบบทดสอบที่มีค่าความเชื่อมั่นเป็น 0.00 หรือเข้าใกล้ 0.00 หมายความว่าแบบทดสอบฉบับนั้นขาดความเชื่อมั่น
การหาความเชื่อมั่นแบบ Kruder-Richardson-21 (KR - 21)



วันเสาร์ที่ 26 กุมภาพันธ์ พ.ศ. 2554

ความตรงของเครื่องมือ (Validity)

เมื่อผู้วิจัยสร้างข้อสอบเสร็จเรียบร้อยแล้วผู้วิจัยจะต้องหาค่าความตรงของข้อสอบนั้นก่อนที่จะนำไปใช้จริงทั้งนี้เพื่อตรวจสอบว่าข้อสอบสามารถวัดได้ตรงตามวัตถุประสงค์ที่ผู้วิจัยได้กำหนดไว้หรือไม่ ข้อสอบที่ดีต้องมีความตรงสูง ความตรงของข้อสอบแบ่งออกเป็นชนิดใหญ่ๆ ได้ดังนี้
1. ความตรงตามเนื้อหา  (Content Validity) การตรวจสอบหาความตรงของข้อสอบมีวัตถุประสงค์เพื่อดูว่าข้อสอบนั้นมีความครอบคลุมเนื้อหา ทักษะ และพฤติกรรมที่ต้องการวัดมากน้อยเพียงไร
2. ความตรงตามเกณฑ์ (Criterion-Related  Validity) การตรวจสอบหาความตรงตามเกณฑ์มีวัตถุประสงค์เพื่อดูความสัมพันธ์ระหว่างคะแนนของข้อสอบที่จะตรวจสอบหาความตรงกับเกณฑ์ว่าคะแนนที่ได้จากการทดสอบสามารถนำไปใช้ในการทำนายหรือคาดคะเนผลการเรียนของผู้ทำข้อสอบในปัจจุบันหรืออนาคตได้มากน้อยเพียงใด ความตรงตามเกณฑ์มี 2 ชนิดคือ
            2.1ความตรงเชิงสภาพ  (Concurrent Validity) การตรวจสอบหาความตรงเชิงสภาพมีวัตถุประสงค์เพื่อดูคุณสมบัติของข้อสอบว่าสามารถวัดพฤติกรรมต่างๆ ของผู้ทำข้อสอบได้สอดคล้องและสัมพันธ์กับสภาพตามความเป็นจริงของผู้ทำข้อสอบในปัจจุบันหรือไม่
                2.2 ความตรงเชิงพยากรณ์ (Predictive Validity) การตรวจสอบหาความตรงเชิงพยากรณ์มีวัตถุประสงค์เพื่อดูคุณสมบัติของข้อสอบว่าสามารถทำนายพฤติกรรมต่างๆ ของผู้ทำข้อสอบในขณะนั้นได้สอดคล้องและสัมพันธ์กับสภาพตามความเป็นจริงของผู้ทำข้อสอบในอนาคตหรือไม่
3. ความตรงตามโครงสร้าง (Construct Validity) การตรวจสอบหาความตรงตามโครงสร้างมีวัตถุประสงค์เพื่อดูว่าเครื่องมือวิจัยหรือข้อสอบนั้นสามารถใช้วัดหรืออธิบายสิ่งที่ต้องการวัดได้สอดคล้องตามทฤษฎีหรือไม่
การหาค่าความตรงตามเนื้อหา
 เป็นการหาว่าข้อสอบสามารถวัดได้ครอบคลุมตามสิ่งที่ต้องการวัดหรือไม่โดยให้ผู้เชี่ยวชาญจำนวนอย่างน้อย ๓ คน ตรวจสอบความสอดคล้องระหว่างข้อคำถามกับวัตถุประสงค์หรือที่เรียกกันว่าการหาค่าดัชนีการสอดคล้อง  IOC          (  Index  of  Item Objective Congruency ) โดยใช้สูตรและเกณฑ์ในการตรวจพิจารณาข้อคำถามดังนี้
สูตรการหาค่าดัชนีการสอดคล้อง 







IOC  =  ดัชนีความสอดคล้องระหว่างข้อสอบกับจุดประสงค์
    R  =  คะแนนของผู้เชี่ยวชาญ
 R   =  ผลรวมของคะแนนของผู้เชี่ยวชาญแต่ละคน
   N  =   จำนวนผู้เชี่ยวชาญ
 เกณฑ์ในการตรวจพิจารณาข้อคำถามผู้เชี่ยวชาญจะให้คะแนนคำถามแต่ละข้อดังนี้ +1 หรือ 0 หรือ -1
+1  = แน่ใจว่าข้อคำถามวัดได้ตรงตามจุดประสงค์ที่ระบุไว้จริง
   0 = ไม่แน่ใจว่าข้อคำถามวัดได้ตรงตามจุดประสงค์ที่ระบุไว้จริง
 -1   =  แน่ใจว่าข้อคำถามวัดได้ไม่ตรงตามจุดประสงค์ที่ระบุไว้จริง
ถ้าข้อคำถามใดที่มีค่า IOC ตั้งแต่ 0.50-1.00 ถือว่ามีค่าความเที่ยงตรง ใช้ได้
ตัวอย่างเช่น  คำถามข้อที่ 1 ผู้เชี่ยวชาญจำนวน 3 ท่าน ให้คะแนน +1 ทุกคน



เอกสารอ้างอิง
บุญเรียง ขจรศิลป์.2539.วิธีวิจัยในชั้นเรียน.กรุงเทพมหานคร:หจก.พี.เอ็น.การพิมพ์
สุรพงษ์ คงสัตย์ และ ธีรชาติ ธรรมวงค์ (2551)''การหาค่าความเที่ยงตรงของแบบสอบถาม (IOC)'' http://www.mcu.ac.th/site/articlecontent_desc.php?article_id=656&articlegroup_id=146


วันเสาร์ที่ 19 กุมภาพันธ์ พ.ศ. 2554

ดัชนีอำนาจจำแนก

ดัชนีอำนาจจำแนก  (Discrimination Index)
                ข้อสอบที่มีคุณภาพจะสามารถจำแนกคนที่ทำข้อสอบออกให้เห็นชัดเจนถึงคนในกลุ่มเก่งและคนในกลุ่มอ่อน กล่าวคือข้อสอบที่ดีคนในกลุ่มเก่งจะตอบถูกมากกว่าคนในกลุ่มอ่อน ผู้วิจัยสามารถพิจารณาอำนาจจำแนกของข้อสอบแต่ละข้อได้จากดัชนีอำนาจจำแนกของข้อสอบ ซึ่งดัชนีอำนาจจำแนกจะมีค่าอยู่ระหว่าง - 1 ถึง + 1  แต่ค่าที่สามารถยอมรับได้จะมีค่าอยู่ระหว่าง 0.20 ขึ้นไปถึง 1.00 ถ้าข้อสอบมีดัชนีอำนาจจำแนกต่ำกว่า 0.20 แสดงว่าข้อสอบนั้นมีคุณภาพต่ำในการจำแนกคนในกลุ่มเก่งออกจากคนในกลุ่มอ่อน ผู้วิจัยจะต้องปรับปรุงหรือตัดข้อสอบข้อนั้นทิ้งไป  ถ้าข้อสอบมีดัชนีอำนาจจำแนกเข้าใกล้ 1.00 มากเท่าใดแสดงว่าข้อสอบข้อนั้นสามารถจำแนกคนในกลุ่มเก่งออกจากคนในกลุ่มอ่อนได้ดี
                ดัชนีอำนาจจำแนก
                                                0.40   ขึ้นไป          เป็นข้อสอบที่ดีมาก
                                                0.30 - 0.39             เป็นข้อสอบที่ค่อนข้างดี 
                                                0.20 – 0.29            เป็นข้อสอบที่พอใช้แต่ต้องปรับปรุง
                                                ต่ำกว่า 0.20            เป็นข้อสอบที่ไม่ดี ต้องตัดทิ้งหรือปรับปรุง
วิธีการแบ่งจำนวนคนทำข้อสอบออกเป็นกลุ่มสูงและกลุ่มต่ำ ผู้วิจัยสามารถใช้เกณฑ์ 50%  หรือ 25%  หรือ  27 %  การวิเคราะห์ดัชนีอำนาจจำแนกสามารถคำนวณได้โดยใช้สูตร

  
  


r       คือ   ค่าอำนาจจำแนก
RU   คือจำนวนคนในกลุ่มสูงที่ตอบถูก
RL    คือจำนวนคนในกลุ่มต่ำที่ตอบถูก
N     คือคนในกลุ่มสูงหรือกลุ่มต่ำ
ยกตัวอย่างเช่น ข้อสอบวิชาหนึ่งมีคนเข้าสอบจำนวน 40 คน ผู้เขียนใช้วิธีการแบ่งจำนวนคนที่ทำข้อสอบออกเป็นคนในกลุ่มสูงและคนในกลุ่มต่ำโดยใช้เกณฑ์ 50%  จึงได้คนในกลุ่มสูง 20 คน และคนในกลุ่มต่ำ 20 คน
ข้อสอบข้อที่ 1 มีคนในกลุ่มสูงที่ตอบถูกจำนวน 15 คน  คนในกลุ่มต่ำที่ตอบถูกจำนวน 5 คน  ข้อสอบข้อนี้มีดัชนีอำนาจจำแนกดังนี้




จากข้อสอบข้อที่ 1 แสดงว่าข้อสอบข้อนี้เป็นข้อสอบที่ดีและสามารถจำแนกคนเก่งออกจากคนอ่อนได้ดี


ข้อสอบข้อที่ 2 มีคนในกลุ่มสูงที่ตอบถูกจำนวน 15 คน  คนในกลุ่มต่ำที่ตอบถูกจำนวน 15 คน  ข้อสอบข้อนี้มีดัชนีอำนาจจำแนกดังนี้



จากข้อสอบข้อที่ 2 แสดงว่าข้อสอบข้อนี้เป็นข้อสอบที่ใช้ไม่ได้ เพราะไม่สามารถจำแนกคนเก่งออกจากคนอ่อนได้ จึงต้องทำการปรับปรุงใหม่หรือตัดทิ้งไป
ข้อสอบข้อที่ 3 มีคนในกลุ่มสูงที่ตอบถูกจำนวน 5 คน  คนในกลุ่มต่ำที่ตอบถูกจำนวน 15 คน  ข้อสอบข้อนี้มีดัชนีอำนาจจำแนกดังนี้

  

จากข้อสอบข้อที่ 2 แสดงว่าข้อสอบข้อนี้เป็นข้อสอบที่ใช้ไม่ได้ เพราะมีดัชนีอำนาจจำแนกติดลบ ซึ่งแสดงว่าคนอ่อนตอบถูกมากกว่าคนเก่ง


ประสิทธิภาพของตัวลวง (Distracter Efficiency)
                ประสิทธิภาพของตัวลวงเป็นอีกคุณลักษณะหนึ่งที่บ่งบอกถึงข้อสอบที่มีคุณภาพ ตัวลวงที่มีประสิทธิภาพควรเป็นตัวลวงที่คนในกลุ่มอ่อนเลือกตอบมากกว่าคนในกลุ่มเก่ง และควรจะเป็นตัวลวงที่มีคนเลือกอย่างน้อยร้อยละ 5 ถ้าข้อสอบข้อใดเป็นข้อสอบที่ไม่มีคนใดเลือกตอบเลยหรือถ้าเลือกตอบก็เลือกตอบไม่ถึงร้อยละ 5 ถือว่าเป็นตัวลวงที่มีคุณภาพต่ำและควรได้รับการปรับปรุง
เอกสารอ้างอืง
บุญเรียง ขจรศิลป์.2539.วิธีวิจัยในชั้นเรียน.กรุงเทพมหานคร:หจก.พี.เอ็น.การพิมพ์
อัจฉรา วงศ์โสธร.2539.การทดสอบและการประเมินผลการเรียนการสอนภาษาอังกฤษ.กรุงเทพมหานคร.โรงพิมพ์จุฬาลงกรณ์มหาวิทยาลัย.

วันศุกร์ที่ 18 กุมภาพันธ์ พ.ศ. 2554

ดัชนีความยาก

เมื่อผู้วิจัยสร้างข้อสอบเสร็จเรียบร้อยแล้ว ผู้วิจัยจะต้องวิเคราะห์หาคุณภาพของข้อสอบก่อนที่จะนำข้อสอบไปใช้จริง ซึ่งผู้วิจัยสามารถวิเคราะห์หาคุณภาพของข้อสอบด้วยการหาค่าความยาก อำนาจจำแนก ความตรง และความเที่ยง สำหรับหัวข้อในครั้งนี้ผู้เขียนจะนำเสนอการวิเคราะห์หาความยากก่อนเป็นลำดับแรกและจะได้นำเสนอการวิเคราะห์หาค่าอำนาจจำแนก ความตรง และความเที่ยง ในครั้งต่อไป
ดัชนีความยาก (Difficulty Index)
                ดัชนีความยากหมายถึงปริมาณของจำนวนข้อของข้อสอบที่ผู้ทำข้อสอบทุกคนสามารถทำได้ถูกต้อง ผู้วิจัยสามารถพิจารณาค่าความยากของข้อสอบแต่ละข้อได้ด้วยการหาดัชนีความยากจากสัดส่วนหรือร้อยละของผู้ที่ทำข้อสอบถูกต้อง ซึ่งดัชนีความยากจะมีค่าอยู่ระหว่าง 0 ถึง 1 หรือ 0% - 100% แต่ดัชนีความยากควรอยู่ระหว่าง 0.2- 0.8 หรือ 20% - 80% ถ้าดัชนีความยากต่ำแสดงว่าข้อสอบข้อนั้นยากเพราะมีผู้ที่ทำข้อสอบตอบถูกน้อย และในทางกลับกัน ถ้าดัชนีความยากสูงแสดงว่าข้อสอบข้อนั้นง่ายเพราะมีผู้ที่ทำข้อสอบตอบถูกมาก
                ดัชนีความยาก                      20% - 80%         =      ระดับที่ยอมรับได้
                                                                30% - 70%         =      ระดับดี
                                                                 40% - 60%        =      ระดับดีมาก
                                                                  0% - 19%          =      ยากเกินไป
                                                                  81% - 100%      =     ง่ายเกินไป
การวิเคราะห์ดัชนีความยากของข้อสอบปรนัยสามารถทำได้โดยใช้สูตรคำนวณดังนี้
                                P     คือดัชนีความยาก
                                RU   คือจำนวนคนในกลุ่มสูงที่ตอบถูก
                                RL   คือจำนวนคนในกลุ่มต่ำที่ตอบถูก
                                NU   คือจำนวนคนที่ตอบข้อสอบในกลุ่มสูง
                                NL   คือจำนวนคนที่ตอบข้อสอบในกลุ่มต่ำ
                ยกตัวอย่างเช่น
                ข้อสอบข้อที่ 1 มีจำนวนคนในกลุ่มสูงที่ตอบถูก 18 คน  และมีจำนวนคนในกลุ่มต่ำที่ตอบถูก 6 คน
        เมื่อวิเคราะห์หาดัชนีความยากของข้อสอบข้อที่ 1 ได้ ค่าอยู่ที่ 0.60 แสดงว่าข้อสอบข้อนี้มีความยากระดับที่ดีมากเพราะมีนักเรียนตอบถูกประมาณร้อยละ 60  และเป็นข้อสอบที่ยอมรับได้เนื่องจากมีดัชนีความยากอยู่ระหว่าง 0.20 – 0.80
                ข้อสอบข้อที่ 2 มีจำนวนคนในกลุ่มสูงที่ตอบถูก 20 คน  และมีจำนวนคนในกลุ่มต่ำที่ตอบถูก 16 คน
                     เมื่อวิเคราะห์หาดัชนีความยากของข้อสอบข้อที่ 2 ได้ ค่าอยู่ที่ 0.90 แสดงว่าข้อสอบข้อนี้มีความง่ายเกินไปเพราะมีนักเรียนตอบถูกประมาณร้อยละ 90  และเป็นข้อสอบที่ต้องปรับปรุงใหม่เนื่องจากมีดัชนีความยากอยู่เกินกว่าค่าที่ยอมรับได้คือ 0.80 (ดัชนีความยากที่ยอมรับได้จะมีค่าอยู่ระหว่าง 0.20 – 0.80)
            ข้อสอบข้อที่ 3 มีจำนวนคนในกลุ่มสูงที่ตอบถูก 4 คน  และมีจำนวนคนในกลุ่มต่ำที่ตอบถูก 0 คน
              เมื่อวิเคราะห์หาดัชนีความยากของข้อสอบข้อที่ 3 ได้ ค่าอยู่ที่ 0.10 แสดงว่าข้อสอบข้อนี้มีความยากเกินไปเพราะมีนักเรียนตอบถูกประมาณร้อยละ 10  และเป็นข้อสอบที่ต้องปรับปรุงใหม่เนื่องจากมีดัชนีความยากอยู่ต่ำกว่าค่าที่ยอมรับได้คือ 0.20 (ดัชนีความยากที่ยอมรับได้จะมีค่าอยู่ระหว่าง 0.20 – 0.80)
เอกสารอ้างอิง
บุญเรียง ขจรศิลป์ .2539.วิธีวิจัยทางการศึกษา.กรุงเทพมหานคร: หจก.พี.เอ็น.การพิมพ์
อัจฉรา วงศ์โสธร. 2539. การทดสอบและประเมินผลการเรียนการสอนภาษาอังกฤษ. กรุงเทพมหานคร: โรงพิมพ์จุฬาลงกรณ์มหาวิทยาลัย