ภาพรวม
ค่าความยาก (p)
อำนาจจำแนก (r)
ความเชื่อมั่น KR-20
ขั้นตอนการวิเคราะห์
แบบทดสอบแบบอิงกลุ่ม (Norm-Referenced Test) คือแบบทดสอบที่ใช้เปรียบเทียบผลการสอบของผู้เรียนกับกลุ่มเพื่อน เป้าหมายคือ จำแนก และจัดลำดับ ผู้เรียนตามระดับความสามารถ ผลการสอบจึงต้องมีการกระจายที่เหมาะสม
วัตถุประสงค์หลัก
จำแนกความสามารถของผู้เรียนออกเป็นระดับต่าง ๆ ได้อย่างชัดเจน เช่น เก่ง-ปานกลาง-อ่อน ใช้ในการคัดเลือก จัดลำดับ หรือตัดสินใจเชิงนโยบายการศึกษา
กลุ่มอ้างอิง (Norm Group)
ผลคะแนนของผู้สอบแต่ละคนถูกตีความโดยเปรียบเทียบกับกลุ่มอ้างอิง (Norm Group) เช่น นักเรียนระดับชั้นเดียวกัน หรือผู้สมัครสอบในรุ่นเดียวกัน
ตัวชี้วัดคุณภาพหลัก
การวิเคราะห์คุณภาพใช้ตัวชี้วัด 3 ด้านหลัก ได้แก่
① ค่าความยาก (p) — ระดับความง่าย/ยากของข้อ
② อำนาจจำแนก (r) — ความสามารถแยกเก่ง-อ่อน
③ ความเชื่อมั่น (KR-20) — ความสม่ำเสมอของผลวัด
เกณฑ์การคัดเลือกข้อสอบ
ข้อสอบที่มีคุณภาพต้องผ่านเกณฑ์ทั้ง 2 ด้าน พร้อมกัน ได้แก่ค่าความยาก 0.20 ≤ p ≤ 0.80 และอำนาจจำแนก r ≥ 0.20
ข้อสอบที่ต้องปรับปรุง
ข้อที่มี p < 0.20 (ยากเกิน) หรือ p > 0.80 (ง่ายเกิน) หรือ r < 0.20 (จำแนกไม่ได้) ควรตรวจสอบตัวลวง ปรับปรุงคำถาม หรือตัดออกจากแบบทดสอบ
หลักการ Test Theory
โปรแกรมนี้ใช้ Classical Test Theory (CTT) ซึ่งเป็นทฤษฎีการวัดแบบดั้งเดิมที่ใช้แพร่หลายในการศึกษาไทย และเป็นพื้นฐานสำคัญก่อนเรียนรู้ IRT (Item Response Theory)
ทำไมต้องวิเคราะห์คุณภาพ? แบบทดสอบที่ไม่ผ่านการวิเคราะห์คุณภาพอาจวัดได้ไม่ตรงเป้าหมาย ให้ผลที่ไม่ยุติธรรม และนำไปสู่การตัดสินใจด้านการศึกษาที่ผิดพลาด การวิเคราะห์คุณภาพจึงเป็นขั้นตอนบังคับ ก่อนนำแบบทดสอบไปใช้จริงในงานวิจัยหรือวัดผลอย่างเป็นทางการ
ค่าความยาก (Difficulty Index: p)
ค่าความยาก (p) หมายถึงสัดส่วนของผู้สอบที่ตอบข้อนั้นได้ถูกต้อง เทียบกับผู้สอบทั้งหมด ค่า p ที่สูงหมายความว่าข้อสอบง่าย ค่า p ที่ต่ำหมายความว่าข้อสอบยาก
ช่วงค่า p
ระดับความยาก
การแปลความหมาย
สถานะ
0.81 – 1.00
ง่ายมาก (Very Easy)
ผู้สอบส่วนใหญ่ตอบถูก ข้อนี้แยกผู้เรียนได้น้อย
ไม่ผ่านเกณฑ์
0.61 – 0.80
ค่อนข้างง่าย (Easy)
เหมาะสำหรับข้อที่ต้องการสร้างความมั่นใจแก่ผู้สอบ
ผ่านเกณฑ์
0.40 – 0.60
ปานกลาง (Moderate)
ระดับดีที่สุด ให้อำนาจจำแนกสูงสุด เหมาะอย่างยิ่ง
ดีที่สุด
0.20 – 0.39
ค่อนข้างยาก (Difficult)
ยังยอมรับได้ แต่ควรตรวจสอบว่าเนื้อหาเหมาะสม
ผ่านเกณฑ์
0.00 – 0.19
ยากมาก (Very Difficult)
ผู้สอบส่วนใหญ่ตอบผิด ควรตรวจสอบหรือปรับปรุง
ไม่ผ่านเกณฑ์
หมายเหตุ : ค่า p ที่เหมาะสมที่สุดสำหรับแบบทดสอบแบบอิงกลุ่มคือ 0.50 เนื่องจากให้ค่า pq สูงสุด ซึ่งทำให้ความแปรปรวนของคะแนนสูงและมีอำนาจจำแนกดีที่สุด (Ebel & Frisbie, 1991)
แนวทางปฏิบัติ : ในการสร้างแบบทดสอบ ควรให้ข้อส่วนใหญ่มี p อยู่ในช่วง 0.40–0.60 และอาจมีข้อง่าย (p 0.60–0.80) สัก 20–25% เพื่อสร้างความมั่นใจให้ผู้สอบ และข้อยาก (p 0.20–0.40) สัก 20–25% เพื่อแยกผู้เรียนระดับสูง
ค่าอำนาจจำแนก (Discrimination Index: r)
อำนาจจำแนก (r) คือความสามารถของข้อสอบในการแบ่งแยกระหว่างผู้เรียนที่มีความสามารถสูง (กลุ่มเก่ง) กับผู้เรียนที่มีความสามารถต่ำ (กลุ่มอ่อน) ข้อสอบที่ดีควรให้ผู้เก่งตอบถูกมากกว่าผู้อ่อน
การแบ่งกลุ่มสูง-ต่ำ — 3 แนวทางทางวิชาการ :
🌐 27% (Kelley, 1939) — มาตรฐานสากล พิสูจน์ทางคณิตศาสตร์ว่าให้ค่า r
ที่มีนัยสำคัญทางสถิติสูงสุด เหมาะกับกลุ่มตัวอย่างขนาดใหญ่ (n ≥ 100)
⅓ 33% (Ebel & Frisbie, 1991) — ทางเลือกระหว่างสองแนวทาง
ให้ความสมดุลระหว่างพลังการจำแนกและความเสถียรของค่า
📚 50% (ล้วน สายยศ, 2543) — แนวทางตำราไทย เหมาะกับกลุ่มตัวอย่างขนาดเล็ก (n < 30)
ให้ค่า r ที่เสถียรกว่าเมื่อ n น้อย และง่ายต่อการคำนวณ
💡 ผู้ใช้สามารถเลือกวิธีได้ใน Step 2 — ควรระบุวิธีที่ใช้ในรายงานการวิจัยทุกครั้ง
ช่วงค่า r
ระดับอำนาจจำแนก
ความหมายเชิงปฏิบัติ
สถานะ
0.40 ขึ้นไป
จำแนกดีมาก (Excellent)
ข้อสอบแยกเก่ง-อ่อนได้ชัดเจนมาก ควรเก็บไว้ใช้
ดีมาก
0.30 – 0.39
จำแนกดี (Good)
ข้อสอบมีคุณภาพ อาจปรับปรุงเล็กน้อยได้
ดี
0.20 – 0.29
จำแนกพอใช้ (Marginal)
ยอมรับได้แต่ควรพิจารณาปรับปรุง
พอใช้
0.00 – 0.19
จำแนกไม่ดี (Poor)
ข้อสอบไม่สามารถแยกผู้เรียนได้ ควรปรับปรุงหรือตัดออก
ไม่ผ่านเกณฑ์
ค่าลบ (< 0)
จำแนกย้อนทิศทาง (Negative)
กลุ่มอ่อนตอบถูกมากกว่ากลุ่มเก่ง บ่งชี้ปัญหาร้ายแรง ต้องปรับปรุงด่วน
ปัญหาร้ายแรง
สาเหตุที่ r มีค่าต่ำ : (1) ตัวเลือกที่ถูกต้องไม่ชัดเจนหรือสับสน (2) ตัวลวงไม่ดึงดูดผู้ที่ไม่รู้จริง (3) เนื้อหาไม่ตรงกับที่สอน (4) คำถามวัดความจำมากกว่าความเข้าใจ (5) ข้อสอบยากหรือง่ายเกินไป (p ไม่อยู่ในช่วงที่เหมาะสม)
ค่าความเชื่อมั่น (Reliability: KR-20)
ความเชื่อมั่น (Reliability) คือความสม่ำเสมอและความคงเส้นคงวาของผลการวัด หากทดสอบกลุ่มเดิมซ้ำภายใต้เงื่อนไขเดิม แบบทดสอบที่มีความเชื่อมั่นสูงควรให้ผลที่ใกล้เคียงกัน สูตร KR-20 (Kuder-Richardson 1937) เหมาะสำหรับแบบทดสอบที่มีคำตอบถูก-ผิดเพียงอย่างเดียว
ช่วงค่า KR-20
ระดับความเชื่อมั่น
ความเหมาะสมในการนำไปใช้
สถานะ
0.90 ขึ้นไป
ดีมาก (Excellent)
เหมาะสำหรับการตัดสินใจที่มีผลสูง เช่น การสอบคัดเลือก
ดีมาก
0.80 – 0.89
ดี (Good)
เหมาะสำหรับแบบทดสอบมาตรฐานในห้องเรียนและงานวิจัย
ดี
0.70 – 0.79
พอใช้ (Acceptable)
ยอมรับได้สำหรับการวิจัยทั่วไป แต่ควรพัฒนาเพิ่มเติม
พอใช้
ต่ำกว่า 0.70
ต้องปรับปรุง (Poor)
ไม่เหมาะสำหรับการตัดสินใจสำคัญ ต้องทบทวนข้อสอบทั้งหมด
ต้องปรับปรุง
ปัจจัยที่ส่งผลต่อความเชื่อมั่น
จำนวนข้อสอบ
ยิ่งมีจำนวนข้อสอบมาก KR-20 ยิ่งสูงขึ้น ตาม Spearman-Brown Formula: เพิ่มข้อ 2 เท่าให้ความเชื่อมั่นสูงขึ้นประมาณ 2r/(1+r)
ความแปรปรวนของคะแนน
S² ยิ่งสูง KR-20 ยิ่งสูง ข้อสอบที่มีความยากระดับปานกลาง (p≈0.5) ให้ความแปรปรวนสูงที่สุด จึงส่งผลดีต่อ KR-20
อำนาจจำแนกของข้อ
ข้อสอบที่มี r สูงส่งผลให้ Σpᵢqᵢ ลดลงเมื่อเทียบสัดส่วน ทำให้ KR-20 สูงขึ้น การเลือกเฉพาะข้อที่ผ่านเกณฑ์จึงเพิ่มค่า KR-20
ความเป็นเนื้อเดียวกัน
ข้อสอบที่วัดสิ่งเดียวกัน (Homogeneous) ทำให้ KR-20 สูงขึ้น แต่หากต้องการวัดหลายด้าน ควรรายงาน KR-20 แยกตามด้าน
KR-20 vs Cronbach's α : KR-20 เหมาะสำหรับข้อสอบที่มีคำตอบ ถูก-ผิด (0 หรือ 1) เท่านั้น หากแบบสอบถามมีมาตรวัดแบบ Likert Scale (เช่น 1–5) ควรใช้ Cronbach's Alpha แทน ซึ่ง KR-20 เป็นกรณีพิเศษของ Cronbach's α นั่นเอง
ขั้นตอนการวิเคราะห์คุณภาพแบบทดสอบ
1
กำหนดรายละเอียด
ระบุจำนวนข้อสอบ จำนวนตัวเลือก และจำนวนผู้สอบ (Step 2)
2
ป้อนข้อมูลคำตอบ
กรอกคำตอบผู้สอบทุกคนและเฉลยทุกข้อ (Step 3)
3
เรียงลำดับคะแนนและแบ่งกลุ่ม
ระบบเรียงผู้สอบตามคะแนนรวม แบ่งกลุ่มสูง-ต่ำตามวิธีที่ผู้ใช้เลือก (27%, 33%, หรือ 50%) อัตโนมัติ
4
คำนวณ p และ r
คำนวณค่าความยากและอำนาจจำแนกของข้อสอบทุกข้อ (Step 4)
5
คัดเลือกข้อผ่านเกณฑ์
เลือกข้อที่ p อยู่ใน 0.20–0.80 และ r ≥ 0.20 (Step 5)
6
คำนวณ KR-20
คำนวณความเชื่อมั่นจากข้อที่คัดเลือก พร้อมสรุปผลและข้อเสนอแนะ (Step 6)
เอกสารอ้างอิงหลักทางวิชาการ
• ล้วน สายยศ และอังคณา สายยศ. (2543). เทคนิคการวัดผลการเรียนรู้ . พิมพ์ครั้งที่ 2. กรุงเทพฯ: สุวีริยาสาส์น.
• บุญชม ศรีสะอาด. (2545). การวัดและประเมินผลการศึกษา . กรุงเทพฯ: สุวีริยาสาส์น.
• พิชิต ฤทธิ์จรูญ. (2557). หลักการวัดและประเมินผลการศึกษา . พิมพ์ครั้งที่ 9. กรุงเทพฯ: เฮ้าส์ ออฟ เคอร์มิสท์.
• Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items. Journal of Educational Psychology, 30 (1), 17–24.
• Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2 (3), 151–160.
• Ebel, R. L., & Frisbie, D. A. (1991). Essentials of Educational Measurement (5th ed.). Prentice Hall.