1
2
3
4
5

กำหนดรายละเอียดแบบทดสอบแบบอิงกลุ่ม

หลักการทางวิชาการ: Kelley (1939) พิสูจน์ว่า 27% ให้ค่า r ที่มีนัยสำคัญทางสถิติสูงสุด เหมาะกับกลุ่มตัวอย่างขนาดใหญ่และงานวิจัยระดับสูง | 33% เป็นการประนีประนอมระหว่างสองแนวทาง ใช้ในบางตำราต่างประเทศ | 50% เหมาะกับกลุ่มตัวอย่างขนาดเล็ก (n < 30) ให้ค่า r เสถียรกว่า ตามแนวทางของ ล้วน สายยศ (2543) และ บุญชม ศรีสะอาด (2545) ซึ่งเป็นที่นิยมในงานวิจัยไทย
ความรู้ทางวิชาการ : การวิเคราะห์คุณภาพแบบทดสอบแบบอิงกลุ่ม
Norm-Referenced Test Quality Analysis — คลิกเพื่อแสดง/ซ่อน
แบบทดสอบแบบอิงกลุ่ม (Norm-Referenced Test) คือแบบทดสอบที่ใช้เปรียบเทียบผลการสอบของผู้เรียนกับกลุ่มเพื่อน เป้าหมายคือ จำแนกและจัดลำดับผู้เรียนตามระดับความสามารถ ผลการสอบจึงต้องมีการกระจายที่เหมาะสม
วัตถุประสงค์หลัก

จำแนกความสามารถของผู้เรียนออกเป็นระดับต่าง ๆ ได้อย่างชัดเจน เช่น เก่ง-ปานกลาง-อ่อน ใช้ในการคัดเลือก จัดลำดับ หรือตัดสินใจเชิงนโยบายการศึกษา

กลุ่มอ้างอิง (Norm Group)

ผลคะแนนของผู้สอบแต่ละคนถูกตีความโดยเปรียบเทียบกับกลุ่มอ้างอิง (Norm Group) เช่น นักเรียนระดับชั้นเดียวกัน หรือผู้สมัครสอบในรุ่นเดียวกัน

ตัวชี้วัดคุณภาพหลัก

การวิเคราะห์คุณภาพใช้ตัวชี้วัด 3 ด้านหลัก ได้แก่
① ค่าความยาก (p) — ระดับความง่าย/ยากของข้อ
② อำนาจจำแนก (r) — ความสามารถแยกเก่ง-อ่อน
③ ความเชื่อมั่น (KR-20) — ความสม่ำเสมอของผลวัด

เกณฑ์การคัดเลือกข้อสอบ

ข้อสอบที่มีคุณภาพต้องผ่านเกณฑ์ทั้ง 2 ด้าน พร้อมกัน ได้แก่ค่าความยาก 0.20 ≤ p ≤ 0.80 และอำนาจจำแนก r ≥ 0.20

ข้อสอบที่ต้องปรับปรุง

ข้อที่มี p < 0.20 (ยากเกิน) หรือ p > 0.80 (ง่ายเกิน) หรือ r < 0.20 (จำแนกไม่ได้) ควรตรวจสอบตัวลวง ปรับปรุงคำถาม หรือตัดออกจากแบบทดสอบ

หลักการ Test Theory

โปรแกรมนี้ใช้ Classical Test Theory (CTT) ซึ่งเป็นทฤษฎีการวัดแบบดั้งเดิมที่ใช้แพร่หลายในการศึกษาไทย และเป็นพื้นฐานสำคัญก่อนเรียนรู้ IRT (Item Response Theory)

ทำไมต้องวิเคราะห์คุณภาพ? แบบทดสอบที่ไม่ผ่านการวิเคราะห์คุณภาพอาจวัดได้ไม่ตรงเป้าหมาย ให้ผลที่ไม่ยุติธรรม และนำไปสู่การตัดสินใจด้านการศึกษาที่ผิดพลาด การวิเคราะห์คุณภาพจึงเป็นขั้นตอนบังคับก่อนนำแบบทดสอบไปใช้จริงในงานวิจัยหรือวัดผลอย่างเป็นทางการ
ค่าความยาก (Difficulty Index: p)
ค่าความยาก (p) หมายถึงสัดส่วนของผู้สอบที่ตอบข้อนั้นได้ถูกต้อง เทียบกับผู้สอบทั้งหมด ค่า p ที่สูงหมายความว่าข้อสอบง่าย ค่า p ที่ต่ำหมายความว่าข้อสอบยาก
สูตรคำนวณค่าความยาก
p = R / N p = ค่าความยาก (Difficulty Index) R = จำนวนผู้สอบที่ตอบถูก (Right answers) N = จำนวนผู้สอบทั้งหมด (Total examinees) ช่วงค่า: 0.00 ≤ p ≤ 1.00
ช่วงค่า p ระดับความยาก การแปลความหมาย สถานะ
0.81 – 1.00 ง่ายมาก (Very Easy) ผู้สอบส่วนใหญ่ตอบถูก ข้อนี้แยกผู้เรียนได้น้อย ไม่ผ่านเกณฑ์
0.61 – 0.80 ค่อนข้างง่าย (Easy) เหมาะสำหรับข้อที่ต้องการสร้างความมั่นใจแก่ผู้สอบ ผ่านเกณฑ์
0.40 – 0.60 ปานกลาง (Moderate) ระดับดีที่สุด ให้อำนาจจำแนกสูงสุด เหมาะอย่างยิ่ง ดีที่สุด
0.20 – 0.39 ค่อนข้างยาก (Difficult) ยังยอมรับได้ แต่ควรตรวจสอบว่าเนื้อหาเหมาะสม ผ่านเกณฑ์
0.00 – 0.19 ยากมาก (Very Difficult) ผู้สอบส่วนใหญ่ตอบผิด ควรตรวจสอบหรือปรับปรุง ไม่ผ่านเกณฑ์
หมายเหตุ : ค่า p ที่เหมาะสมที่สุดสำหรับแบบทดสอบแบบอิงกลุ่มคือ 0.50 เนื่องจากให้ค่า pq สูงสุด ซึ่งทำให้ความแปรปรวนของคะแนนสูงและมีอำนาจจำแนกดีที่สุด (Ebel & Frisbie, 1991)
แนวทางปฏิบัติ : ในการสร้างแบบทดสอบ ควรให้ข้อส่วนใหญ่มี p อยู่ในช่วง 0.40–0.60 และอาจมีข้อง่าย (p 0.60–0.80) สัก 20–25% เพื่อสร้างความมั่นใจให้ผู้สอบ และข้อยาก (p 0.20–0.40) สัก 20–25% เพื่อแยกผู้เรียนระดับสูง
ค่าอำนาจจำแนก (Discrimination Index: r)
อำนาจจำแนก (r) คือความสามารถของข้อสอบในการแบ่งแยกระหว่างผู้เรียนที่มีความสามารถสูง (กลุ่มเก่ง) กับผู้เรียนที่มีความสามารถต่ำ (กลุ่มอ่อน) ข้อสอบที่ดีควรให้ผู้เก่งตอบถูกมากกว่าผู้อ่อน
สูตรคำนวณค่าอำนาจจำแนก (Fan, 1952)
r = (RHRL) / n r = ค่าอำนาจจำแนก (Discrimination Index) RH = จำนวนคนในกลุ่มสูงที่ตอบถูก (Right High Group) RL = จำนวนคนในกลุ่มต่ำที่ตอบถูก (Right Low Group) n = จำนวนคนในแต่ละกลุ่ม (27%, 33% หรือ 50% ของ N — ผู้ใช้เลือกได้) ช่วงค่า: −1.00 ≤ r ≤ +1.00
การแบ่งกลุ่มสูง-ต่ำ — 3 แนวทางทางวิชาการ :
🌐 27% (Kelley, 1939) — มาตรฐานสากล พิสูจน์ทางคณิตศาสตร์ว่าให้ค่า r ที่มีนัยสำคัญทางสถิติสูงสุด เหมาะกับกลุ่มตัวอย่างขนาดใหญ่ (n ≥ 100)
33% (Ebel & Frisbie, 1991) — ทางเลือกระหว่างสองแนวทาง ให้ความสมดุลระหว่างพลังการจำแนกและความเสถียรของค่า
📚 50% (ล้วน สายยศ, 2543) — แนวทางตำราไทย เหมาะกับกลุ่มตัวอย่างขนาดเล็ก (n < 30) ให้ค่า r ที่เสถียรกว่าเมื่อ n น้อย และง่ายต่อการคำนวณ
💡 ผู้ใช้สามารถเลือกวิธีได้ใน Step 2 — ควรระบุวิธีที่ใช้ในรายงานการวิจัยทุกครั้ง
ช่วงค่า r ระดับอำนาจจำแนก ความหมายเชิงปฏิบัติ สถานะ
0.40 ขึ้นไป จำแนกดีมาก (Excellent) ข้อสอบแยกเก่ง-อ่อนได้ชัดเจนมาก ควรเก็บไว้ใช้ ดีมาก
0.30 – 0.39 จำแนกดี (Good) ข้อสอบมีคุณภาพ อาจปรับปรุงเล็กน้อยได้ ดี
0.20 – 0.29 จำแนกพอใช้ (Marginal) ยอมรับได้แต่ควรพิจารณาปรับปรุง พอใช้
0.00 – 0.19 จำแนกไม่ดี (Poor) ข้อสอบไม่สามารถแยกผู้เรียนได้ ควรปรับปรุงหรือตัดออก ไม่ผ่านเกณฑ์
ค่าลบ (< 0) จำแนกย้อนทิศทาง (Negative) กลุ่มอ่อนตอบถูกมากกว่ากลุ่มเก่ง บ่งชี้ปัญหาร้ายแรง ต้องปรับปรุงด่วน ปัญหาร้ายแรง
สาเหตุที่ r มีค่าต่ำ : (1) ตัวเลือกที่ถูกต้องไม่ชัดเจนหรือสับสน (2) ตัวลวงไม่ดึงดูดผู้ที่ไม่รู้จริง (3) เนื้อหาไม่ตรงกับที่สอน (4) คำถามวัดความจำมากกว่าความเข้าใจ (5) ข้อสอบยากหรือง่ายเกินไป (p ไม่อยู่ในช่วงที่เหมาะสม)
ค่าความเชื่อมั่น (Reliability: KR-20)
ความเชื่อมั่น (Reliability) คือความสม่ำเสมอและความคงเส้นคงวาของผลการวัด หากทดสอบกลุ่มเดิมซ้ำภายใต้เงื่อนไขเดิม แบบทดสอบที่มีความเชื่อมั่นสูงควรให้ผลที่ใกล้เคียงกัน สูตร KR-20 (Kuder-Richardson 1937) เหมาะสำหรับแบบทดสอบที่มีคำตอบถูก-ผิดเพียงอย่างเดียว
สูตร Kuder-Richardson Formula 20 (KR-20)
KR-20 = (k / (k−1)) × (1 − Σpᵢqᵢ / ) k = จำนวนข้อสอบทั้งหมดที่คัดเลือก pᵢ = สัดส่วนผู้ตอบถูกในข้อที่ i (คำนวณรายข้อ) qᵢ = 1 − pᵢ (สัดส่วนผู้ตอบผิดในข้อที่ i) = Population Variance ของคะแนนรวม (หาร N) ช่วงค่า : 0.00 ≤ KR-20 ≤ 1.00
ช่วงค่า KR-20 ระดับความเชื่อมั่น ความเหมาะสมในการนำไปใช้ สถานะ
0.90 ขึ้นไป ดีมาก (Excellent) เหมาะสำหรับการตัดสินใจที่มีผลสูง เช่น การสอบคัดเลือก ดีมาก
0.80 – 0.89 ดี (Good) เหมาะสำหรับแบบทดสอบมาตรฐานในห้องเรียนและงานวิจัย ดี
0.70 – 0.79 พอใช้ (Acceptable) ยอมรับได้สำหรับการวิจัยทั่วไป แต่ควรพัฒนาเพิ่มเติม พอใช้
ต่ำกว่า 0.70 ต้องปรับปรุง (Poor) ไม่เหมาะสำหรับการตัดสินใจสำคัญ ต้องทบทวนข้อสอบทั้งหมด ต้องปรับปรุง
ปัจจัยที่ส่งผลต่อความเชื่อมั่น
จำนวนข้อสอบ
ยิ่งมีจำนวนข้อสอบมาก KR-20 ยิ่งสูงขึ้น ตาม Spearman-Brown Formula: เพิ่มข้อ 2 เท่าให้ความเชื่อมั่นสูงขึ้นประมาณ 2r/(1+r)
ความแปรปรวนของคะแนน
S² ยิ่งสูง KR-20 ยิ่งสูง ข้อสอบที่มีความยากระดับปานกลาง (p≈0.5) ให้ความแปรปรวนสูงที่สุด จึงส่งผลดีต่อ KR-20
อำนาจจำแนกของข้อ
ข้อสอบที่มี r สูงส่งผลให้ Σpᵢqᵢ ลดลงเมื่อเทียบสัดส่วน ทำให้ KR-20 สูงขึ้น การเลือกเฉพาะข้อที่ผ่านเกณฑ์จึงเพิ่มค่า KR-20
ความเป็นเนื้อเดียวกัน
ข้อสอบที่วัดสิ่งเดียวกัน (Homogeneous) ทำให้ KR-20 สูงขึ้น แต่หากต้องการวัดหลายด้าน ควรรายงาน KR-20 แยกตามด้าน
KR-20 vs Cronbach's α : KR-20 เหมาะสำหรับข้อสอบที่มีคำตอบ ถูก-ผิด (0 หรือ 1) เท่านั้น หากแบบสอบถามมีมาตรวัดแบบ Likert Scale (เช่น 1–5) ควรใช้ Cronbach's Alpha แทน ซึ่ง KR-20 เป็นกรณีพิเศษของ Cronbach's α นั่นเอง
ขั้นตอนการวิเคราะห์คุณภาพแบบทดสอบ
1
กำหนดรายละเอียด
ระบุจำนวนข้อสอบ จำนวนตัวเลือก และจำนวนผู้สอบ (Step 2)
2
ป้อนข้อมูลคำตอบ
กรอกคำตอบผู้สอบทุกคนและเฉลยทุกข้อ (Step 3)
3
เรียงลำดับคะแนนและแบ่งกลุ่ม
ระบบเรียงผู้สอบตามคะแนนรวม แบ่งกลุ่มสูง-ต่ำตามวิธีที่ผู้ใช้เลือก (27%, 33%, หรือ 50%) อัตโนมัติ
4
คำนวณ p และ r
คำนวณค่าความยากและอำนาจจำแนกของข้อสอบทุกข้อ (Step 4)
5
คัดเลือกข้อผ่านเกณฑ์
เลือกข้อที่ p อยู่ใน 0.20–0.80 และ r ≥ 0.20 (Step 5)
6
คำนวณ KR-20
คำนวณความเชื่อมั่นจากข้อที่คัดเลือก พร้อมสรุปผลและข้อเสนอแนะ (Step 6)
เอกสารอ้างอิงหลักทางวิชาการ
• ล้วน สายยศ และอังคณา สายยศ. (2543). เทคนิคการวัดผลการเรียนรู้. พิมพ์ครั้งที่ 2. กรุงเทพฯ: สุวีริยาสาส์น.
• บุญชม ศรีสะอาด. (2545). การวัดและประเมินผลการศึกษา. กรุงเทพฯ: สุวีริยาสาส์น.
• พิชิต ฤทธิ์จรูญ. (2557). หลักการวัดและประเมินผลการศึกษา. พิมพ์ครั้งที่ 9. กรุงเทพฯ: เฮ้าส์ ออฟ เคอร์มิสท์.
• Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items. Journal of Educational Psychology, 30(1), 17–24.
• Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160.
• Ebel, R. L., & Frisbie, D. A. (1991). Essentials of Educational Measurement (5th ed.). Prentice Hall.