โปรแกรมวิเคราะห์คุณภาพแบบทดสอบแบบอิงกลุ่ม

ความรู้ทางวิชาการ : การวิเคราะห์คุณภาพแบบทดสอบแบบอิงกลุ่ม

Norm-Referenced Test Quality Analysis — คลิกเพื่อแสดง/ซ่อน

แบบทดสอบแบบอิงกลุ่ม (Norm-Referenced Test) คือแบบทดสอบที่ใช้เปรียบเทียบผลการสอบของผู้เรียนกับกลุ่มเพื่อน เป้าหมายคือ จำแนกและจัดลำดับผู้เรียนตามระดับความสามารถ ผลการสอบจึงต้องมีการกระจายที่เหมาะสม

วัตถุประสงค์หลัก

จำแนกความสามารถของผู้เรียนออกเป็นระดับต่าง ๆ ได้อย่างชัดเจน เช่น เก่ง-ปานกลาง-อ่อน ใช้ในการคัดเลือก จัดลำดับ หรือตัดสินใจเชิงนโยบายการศึกษา

กลุ่มอ้างอิง (Norm Group)

ผลคะแนนของผู้สอบแต่ละคนถูกตีความโดยเปรียบเทียบกับกลุ่มอ้างอิง (Norm Group) เช่น นักเรียนระดับชั้นเดียวกัน หรือผู้สมัครสอบในรุ่นเดียวกัน

ตัวชี้วัดคุณภาพหลัก

การวิเคราะห์คุณภาพใช้ตัวชี้วัด 3 ด้านหลัก ได้แก่
① ค่าความยาก (p) — ระดับความง่าย/ยากของข้อ
② อำนาจจำแนก (r) — ความสามารถแยกเก่ง-อ่อน
③ ความเชื่อมั่น (KR-20) — ความสม่ำเสมอของผลวัด

เกณฑ์การคัดเลือกข้อสอบ

ข้อสอบที่มีคุณภาพต้องผ่านเกณฑ์ทั้ง 2 ด้าน พร้อมกัน ได้แก่ค่าความยาก 0.20 ≤ p ≤ 0.80 และอำนาจจำแนก r ≥ 0.20

ข้อสอบที่ต้องปรับปรุง

ข้อที่มี p < 0.20 (ยากเกิน) หรือ p > 0.80 (ง่ายเกิน) หรือ r < 0.20 (จำแนกไม่ได้) ควรตรวจสอบตัวลวง ปรับปรุงคำถาม หรือตัดออกจากแบบทดสอบ

หลักการ Test Theory

โปรแกรมนี้ใช้ Classical Test Theory (CTT) ซึ่งเป็นทฤษฎีการวัดแบบดั้งเดิมที่ใช้แพร่หลายในการศึกษาไทย และเป็นพื้นฐานสำคัญก่อนเรียนรู้ IRT (Item Response Theory)

ทำไมต้องวิเคราะห์คุณภาพ? แบบทดสอบที่ไม่ผ่านการวิเคราะห์คุณภาพอาจวัดได้ไม่ตรงเป้าหมาย ให้ผลที่ไม่ยุติธรรม และนำไปสู่การตัดสินใจด้านการศึกษาที่ผิดพลาด การวิเคราะห์คุณภาพจึงเป็นขั้นตอนบังคับก่อนนำแบบทดสอบไปใช้จริงในงานวิจัยหรือวัดผลอย่างเป็นทางการ

ค่าความยาก (Difficulty Index: p)

ค่าความยาก (p) หมายถึงสัดส่วนของผู้สอบที่ตอบข้อนั้นได้ถูกต้อง เทียบกับผู้สอบทั้งหมด ค่า p ที่สูงหมายความว่าข้อสอบง่าย ค่า p ที่ต่ำหมายความว่าข้อสอบยาก

สูตรคำนวณค่าความยาก

p = R / N p = ค่าความยาก (Difficulty Index) R = จำนวนผู้สอบที่ตอบถูก (Right answers) N = จำนวนผู้สอบทั้งหมด (Total examinees) ช่วงค่า: 0.00 ≤ p ≤ 1.00

ช่วงค่า p	ระดับความยาก	การแปลความหมาย	สถานะ
0.81 – 1.00	ง่ายมาก (Very Easy)	ผู้สอบส่วนใหญ่ตอบถูก ข้อนี้แยกผู้เรียนได้น้อย	ไม่ผ่านเกณฑ์
0.61 – 0.80	ค่อนข้างง่าย (Easy)	เหมาะสำหรับข้อที่ต้องการสร้างความมั่นใจแก่ผู้สอบ	ผ่านเกณฑ์
0.40 – 0.60	ปานกลาง (Moderate)	ระดับดีที่สุด ให้อำนาจจำแนกสูงสุด เหมาะอย่างยิ่ง	ดีที่สุด
0.20 – 0.39	ค่อนข้างยาก (Difficult)	ยังยอมรับได้ แต่ควรตรวจสอบว่าเนื้อหาเหมาะสม	ผ่านเกณฑ์
0.00 – 0.19	ยากมาก (Very Difficult)	ผู้สอบส่วนใหญ่ตอบผิด ควรตรวจสอบหรือปรับปรุง	ไม่ผ่านเกณฑ์

หมายเหตุ : ค่า p ที่เหมาะสมที่สุดสำหรับแบบทดสอบแบบอิงกลุ่มคือ 0.50 เนื่องจากให้ค่า pq สูงสุด ซึ่งทำให้ความแปรปรวนของคะแนนสูงและมีอำนาจจำแนกดีที่สุด (Ebel & Frisbie, 1991)

แนวทางปฏิบัติ : ในการสร้างแบบทดสอบ ควรให้ข้อส่วนใหญ่มี p อยู่ในช่วง 0.40–0.60 และอาจมีข้อง่าย (p 0.60–0.80) สัก 20–25% เพื่อสร้างความมั่นใจให้ผู้สอบ และข้อยาก (p 0.20–0.40) สัก 20–25% เพื่อแยกผู้เรียนระดับสูง

ค่าอำนาจจำแนก (Discrimination Index: r)

อำนาจจำแนก (r) คือความสามารถของข้อสอบในการแบ่งแยกระหว่างผู้เรียนที่มีความสามารถสูง (กลุ่มเก่ง) กับผู้เรียนที่มีความสามารถต่ำ (กลุ่มอ่อน) ข้อสอบที่ดีควรให้ผู้เก่งตอบถูกมากกว่าผู้อ่อน

สูตรคำนวณค่าอำนาจจำแนก (Fan, 1952)

r = (RH − RL) / n r = ค่าอำนาจจำแนก (Discrimination Index) RH = จำนวนคนในกลุ่มสูงที่ตอบถูก (Right High Group) RL = จำนวนคนในกลุ่มต่ำที่ตอบถูก (Right Low Group) n = จำนวนคนในแต่ละกลุ่ม (27%, 33% หรือ 50% ของ N — ผู้ใช้เลือกได้) ช่วงค่า: −1.00 ≤ r ≤ +1.00

การแบ่งกลุ่มสูง-ต่ำ — 3 แนวทางทางวิชาการ :
🌐 27% (Kelley, 1939) — มาตรฐานสากล พิสูจน์ทางคณิตศาสตร์ว่าให้ค่า r ที่มีนัยสำคัญทางสถิติสูงสุด เหมาะกับกลุ่มตัวอย่างขนาดใหญ่ (n ≥ 100)
⅓ 33% (Ebel & Frisbie, 1991) — ทางเลือกระหว่างสองแนวทาง ให้ความสมดุลระหว่างพลังการจำแนกและความเสถียรของค่า
📚 50% (ล้วน สายยศ, 2543) — แนวทางตำราไทย เหมาะกับกลุ่มตัวอย่างขนาดเล็ก (n < 30) ให้ค่า r ที่เสถียรกว่าเมื่อ n น้อย และง่ายต่อการคำนวณ 💡 ผู้ใช้สามารถเลือกวิธีได้ใน Step 2 — ควรระบุวิธีที่ใช้ในรายงานการวิจัยทุกครั้ง

ช่วงค่า r	ระดับอำนาจจำแนก	ความหมายเชิงปฏิบัติ	สถานะ
0.40 ขึ้นไป	จำแนกดีมาก (Excellent)	ข้อสอบแยกเก่ง-อ่อนได้ชัดเจนมาก ควรเก็บไว้ใช้	ดีมาก
0.30 – 0.39	จำแนกดี (Good)	ข้อสอบมีคุณภาพ อาจปรับปรุงเล็กน้อยได้	ดี
0.20 – 0.29	จำแนกพอใช้ (Marginal)	ยอมรับได้แต่ควรพิจารณาปรับปรุง	พอใช้
0.00 – 0.19	จำแนกไม่ดี (Poor)	ข้อสอบไม่สามารถแยกผู้เรียนได้ ควรปรับปรุงหรือตัดออก	ไม่ผ่านเกณฑ์
ค่าลบ (< 0)	จำแนกย้อนทิศทาง (Negative)	กลุ่มอ่อนตอบถูกมากกว่ากลุ่มเก่ง บ่งชี้ปัญหาร้ายแรง ต้องปรับปรุงด่วน	ปัญหาร้ายแรง

สาเหตุที่ r มีค่าต่ำ : (1) ตัวเลือกที่ถูกต้องไม่ชัดเจนหรือสับสน (2) ตัวลวงไม่ดึงดูดผู้ที่ไม่รู้จริง (3) เนื้อหาไม่ตรงกับที่สอน (4) คำถามวัดความจำมากกว่าความเข้าใจ (5) ข้อสอบยากหรือง่ายเกินไป (p ไม่อยู่ในช่วงที่เหมาะสม)

ค่าความเชื่อมั่น (Reliability: KR-20)

ความเชื่อมั่น (Reliability) คือความสม่ำเสมอและความคงเส้นคงวาของผลการวัด หากทดสอบกลุ่มเดิมซ้ำภายใต้เงื่อนไขเดิม แบบทดสอบที่มีความเชื่อมั่นสูงควรให้ผลที่ใกล้เคียงกัน สูตร KR-20 (Kuder-Richardson 1937) เหมาะสำหรับแบบทดสอบที่มีคำตอบถูก-ผิดเพียงอย่างเดียว

สูตร Kuder-Richardson Formula 20 (KR-20)

KR-20 = (k / (k−1)) × (1 − Σpᵢqᵢ / S²) k = จำนวนข้อสอบทั้งหมดที่คัดเลือก pᵢ = สัดส่วนผู้ตอบถูกในข้อที่ i (คำนวณรายข้อ) qᵢ = 1 − pᵢ (สัดส่วนผู้ตอบผิดในข้อที่ i) S² = Population Variance ของคะแนนรวม (หาร N) ช่วงค่า : 0.00 ≤ KR-20 ≤ 1.00

ช่วงค่า KR-20	ระดับความเชื่อมั่น	ความเหมาะสมในการนำไปใช้	สถานะ
0.90 ขึ้นไป	ดีมาก (Excellent)	เหมาะสำหรับการตัดสินใจที่มีผลสูง เช่น การสอบคัดเลือก	ดีมาก
0.80 – 0.89	ดี (Good)	เหมาะสำหรับแบบทดสอบมาตรฐานในห้องเรียนและงานวิจัย	ดี
0.70 – 0.79	พอใช้ (Acceptable)	ยอมรับได้สำหรับการวิจัยทั่วไป แต่ควรพัฒนาเพิ่มเติม	พอใช้
ต่ำกว่า 0.70	ต้องปรับปรุง (Poor)	ไม่เหมาะสำหรับการตัดสินใจสำคัญ ต้องทบทวนข้อสอบทั้งหมด	ต้องปรับปรุง

ปัจจัยที่ส่งผลต่อความเชื่อมั่น

จำนวนข้อสอบ

ยิ่งมีจำนวนข้อสอบมาก KR-20 ยิ่งสูงขึ้น ตาม Spearman-Brown Formula: เพิ่มข้อ 2 เท่าให้ความเชื่อมั่นสูงขึ้นประมาณ 2r/(1+r)

ความแปรปรวนของคะแนน

S² ยิ่งสูง KR-20 ยิ่งสูง ข้อสอบที่มีความยากระดับปานกลาง (p≈0.5) ให้ความแปรปรวนสูงที่สุด จึงส่งผลดีต่อ KR-20

อำนาจจำแนกของข้อ

ข้อสอบที่มี r สูงส่งผลให้ Σpᵢqᵢ ลดลงเมื่อเทียบสัดส่วน ทำให้ KR-20 สูงขึ้น การเลือกเฉพาะข้อที่ผ่านเกณฑ์จึงเพิ่มค่า KR-20

ความเป็นเนื้อเดียวกัน

ข้อสอบที่วัดสิ่งเดียวกัน (Homogeneous) ทำให้ KR-20 สูงขึ้น แต่หากต้องการวัดหลายด้าน ควรรายงาน KR-20 แยกตามด้าน

KR-20 vs Cronbach's α : KR-20 เหมาะสำหรับข้อสอบที่มีคำตอบ ถูก-ผิด (0 หรือ 1) เท่านั้น หากแบบสอบถามมีมาตรวัดแบบ Likert Scale (เช่น 1–5) ควรใช้ Cronbach's Alpha แทน ซึ่ง KR-20 เป็นกรณีพิเศษของ Cronbach's α นั่นเอง

ขั้นตอนการวิเคราะห์คุณภาพแบบทดสอบ

กำหนดรายละเอียด

ระบุจำนวนข้อสอบ จำนวนตัวเลือก และจำนวนผู้สอบ (Step 2)

ป้อนข้อมูลคำตอบ

กรอกคำตอบผู้สอบทุกคนและเฉลยทุกข้อ (Step 3)

เรียงลำดับคะแนนและแบ่งกลุ่ม

ระบบเรียงผู้สอบตามคะแนนรวม แบ่งกลุ่มสูง-ต่ำตามวิธีที่ผู้ใช้เลือก (27%, 33%, หรือ 50%) อัตโนมัติ

คำนวณ p และ r

คำนวณค่าความยากและอำนาจจำแนกของข้อสอบทุกข้อ (Step 4)

คัดเลือกข้อผ่านเกณฑ์

เลือกข้อที่ p อยู่ใน 0.20–0.80 และ r ≥ 0.20 (Step 5)

คำนวณ KR-20

คำนวณความเชื่อมั่นจากข้อที่คัดเลือก พร้อมสรุปผลและข้อเสนอแนะ (Step 6)

เอกสารอ้างอิงหลักทางวิชาการ
• ล้วน สายยศ และอังคณา สายยศ. (2543). เทคนิคการวัดผลการเรียนรู้. พิมพ์ครั้งที่ 2. กรุงเทพฯ: สุวีริยาสาส์น.
• บุญชม ศรีสะอาด. (2545). การวัดและประเมินผลการศึกษา. กรุงเทพฯ: สุวีริยาสาส์น.
• พิชิต ฤทธิ์จรูญ. (2557). หลักการวัดและประเมินผลการศึกษา. พิมพ์ครั้งที่ 9. กรุงเทพฯ: เฮ้าส์ ออฟ เคอร์มิสท์.
• Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items. Journal of Educational Psychology, 30(1), 17–24.
• Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160.
• Ebel, R. L., & Frisbie, D. A. (1991). Essentials of Educational Measurement (5th ed.). Prentice Hall.

กำหนดรายละเอียดแบบทดสอบแบบอิงกลุ่ม

ค่าความยาก (Difficulty Index: p)

ค่าอำนาจจำแนก (Discrimination Index: r)

ค่าความเชื่อมั่น (Reliability: KR-20)

ปัจจัยที่ส่งผลต่อความเชื่อมั่น

ขั้นตอนการวิเคราะห์คุณภาพแบบทดสอบ