Đo lường chất lượng dạy học Toán: Từ tranh luận học thuật đến định hình chính sách giáo dục

Chất lượng giảng dạy Toán từ lâu đã được coi là yếu tố then chốt quyết định thành tích học tập của học sinh. Tuy nhiên, việc định nghĩa và đo lường chất lượng ấy vẫn còn nhiều khoảng trống. Những phân tích gần đây đã chỉ ra sự phong phú của các công cụ đánh giá, nhưng cũng chỉ ra hạn chế về tính hợp lệ, độ tin cậy và đặc biệt là tính công bằng. Câu hỏi đặt ra: đâu là hướng đi tương lai để đo lường chất lượng dạy học một cách khoa học, và Việt Nam có thể học hỏi gì từ kinh nghiệm quốc tế?

Bức tranh khái niệm: Khi “chất lượng” không còn đồng nghĩa duy nhất

Khái niệm “chất lượng dạy học” luôn gắn với sự đa nghĩa. Berliner (2005) phân biệt hai cấp độ: giảng dạy tốt – tức là đáp ứng các yêu cầu nghề nghiệp, và giảng dạy hiệu quả – tức là có tác động rõ rệt đến kết quả học tập của học sinh. Trong Toán học, chất lượng không chỉ nằm ở độ chính xác nội dung mà còn ở khả năng giáo viên tạo ra một môi trường học tập giàu tính khuyến khích, thúc đẩy học sinh tham gia tranh luận, xây dựng ý tưởng và phát triển tư duy khái niệm (Praetorius & Charalambous, 2018).

Sự khác biệt trong quan niệm này phản ánh qua nhiều khung chuẩn quốc tế. Tại Mỹ, National Council of Teachers of Mathematics (2000; 2014) nhấn mạnh vào diễn ngôn lớp học, sử dụng biểu diễn và phản hồi trước ý tưởng học sinh. Trong khi đó, báo cáo Eurydice (2011) ở châu Âu đề cao tính công bằng trong cơ hội học tập. Điều này cho thấy, “chất lượng” vừa mang tính phổ quát, vừa phụ thuộc vào bối cảnh, chính sách và triết lý giáo dục của từng quốc gia.

Công cụ đo lường: Phong phú nhưng chưa toàn diện

Tổng quan gần đây ghi nhận có tới 47 công cụ được sử dụng trong nghiên cứu dạy học Toán giai đoạn 2000–2020. Phần lớn tập trung vào hành vi giảng dạy được quan sát trực tiếp, như bộ công cụ Mathematical Quality of Instruction (MQI) (Hill et al., 2012) hay Classroom Assessment Scoring System (CLASS) (Pianta et al., 2012). Một số khác khai thác tiếng nói học sinh thông qua bảng hỏi, tiêu biểu như Constructivist Learning Environment Survey (CLES) (Lomas, 2009).

Đáng chú ý, các công cụ mô phỏng ngày càng được quan tâm, nhất là trong lĩnh vực “nhận diện và phản hồi sư phạm” (teacher noticing). Các nghiên cứu của Jacobs & Spangler (2017) đã chỉ ra rằng việc giáo viên chú ý, diễn giải và quyết định phản ứng trước các tình huống lớp học là yếu tố then chốt, nhưng khó quan sát trực tiếp, nên thường được đo lường bằng bảng hỏi hoặc phỏng vấn dựa trên tình huống mô phỏng.

Tuy nhiên, chỉ hai công cụ đáp ứng được khung Interpretation and Use Argument (IUA) – tức là có đầy đủ diễn giải và hướng sử dụng kết quả (Kane, 2013; 2016). Điều này phản ánh hạn chế lớn: đa số công cụ mới dừng ở báo cáo thống kê, chưa hình thành luận cứ khoa học toàn diện cho việc sử dụng trong thực tiễn.

Khoảng trống khoa học: Khi độ tin cậy không đồng nghĩa với công bằng

Trong số các bằng chứng được báo cáo, độ tin cậy (reliability) là phổ biến nhất, thường thể hiện qua hệ số Cronbach’s alpha hoặc sự đồng thuận giữa các đánh giá viên. Tuy nhiên, bằng chứng về tính hợp lệ (validity) và đặc biệt là tính công bằng (fairness) lại hiếm gặp. Theo Standards for Educational and Psychological Testing (AERA, APA & NCME, 2014), một công cụ đánh giá cần có bằng chứng đa diện: nội dung, cấu trúc, mối quan hệ với biến khác, quy trình phản hồi và hệ quả sử dụng. Nhưng phần lớn công cụ dạy học Toán hiện nay chỉ đáp ứng một vài khía cạnh, bỏ trống vấn đề công bằng.

Shepard (2016) đã cảnh báo: công cụ đánh giá nếu thiếu công bằng sẽ vô tình duy trì bất bình đẳng trong giáo dục, đặc biệt đối với học sinh ở nhóm yếu thế. Điều này đồng nghĩa với việc, thay vì tạo ra dữ liệu để cải thiện giáo dục, các công cụ thiếu công bằng có thể trở thành rào cản.

Học thuật quốc tế: Hướng tới khung chuẩn chung hay giữ bản sắc riêng?

Nhiều học giả kêu gọi phát triển khung chung về đo lường chất lượng dạy học Toán. Charalambous và Praetorius (2020) đã xây dựng mô hình MAIN-TEACH dựa trên tổng hợp 11 công cụ quan sát. Tuy nhiên, nỗ lực chuẩn hóa này cũng gây tranh cãi: liệu có làm mất đi những đặc thù quan trọng trong từng bối cảnh, đặc biệt với học sinh thiểu số hoặc hoàn cảnh khó khăn (Litke et al., 2021)?

Một hướng tiếp cận cân bằng hơn là kết hợp quan sát lớp học và bảng hỏi học sinh, qua đó vừa bảo đảm tính khách quan, vừa phản ánh trải nghiệm người học (van der Lans, 2018). Ngoài ra, việc sử dụng phỏng vấn nhận thức (cognitive interviews) trong quá trình phát triển công cụ, như khuyến nghị của Walkowiak et al. (2022), có thể giúp kiểm chứng cách người dùng và người chấm hiểu và vận dụng công cụ, từ đó tăng cường tính hợp lệ.

Khuyến nghị cho Việt Nam: Xây dựng hệ thống đo lường công bằng và hiện đại

Những phát hiện quốc tế gợi mở nhiều bài học quan trọng cho Việt Nam trong bối cảnh thực hiện Chương trình Giáo dục phổ thông 2018 và chiến lược đổi mới sáng tạo – chuyển đổi số được nhấn mạnh trong Nghị quyết 57-NQ/TW (2024).

Thứ nhất, cần phát triển các công cụ quan sát lớp học chuẩn hóa để đo lường hành vi dạy học cốt lõi, như khuyến khích thảo luận, tổ chức hoạt động kiến tạo tri thức, và phản hồi ý tưởng học sinh. Đây là những tiêu chí đã được quốc tế thừa nhận nhưng còn thiếu trong hệ thống đánh giá giáo viên hiện hành của Việt Nam (Thông tư 20/2018/TT-BGDĐT về Chuẩn nghề nghiệp giáo viên cơ sở giáo dục phổ thông).

Thứ hai, phải tích hợp tiếng nói học sinh trong đánh giá chất lượng dạy học. Trong khi các báo cáo thanh tra hay đánh giá hiện nay ở Việt Nam chủ yếu tập trung vào quan sát và báo cáo của giáo viên, thì bảng hỏi học sinh có thể cung cấp dữ liệu trực tiếp về trải nghiệm lớp học, giúp phản ánh đúng hơn tác động của giáo viên.

Thứ ba, Việt Nam cần xây dựng khung IUA riêng cho từng công cụ, bảo đảm mỗi kết quả đánh giá đều gắn với mục đích sử dụng cụ thể: bồi dưỡng giáo viên, quản lý nhà trường, hay hoạch định chính sách. Điều này tránh tình trạng sử dụng dữ liệu một cách cơ học hoặc sai mục đích.

Cuối cùng, vấn đề công bằng trong đo lường cần được đưa vào trung tâm của mọi công cụ. Điều này đặc biệt quan trọng với học sinh vùng sâu vùng xa, học sinh dân tộc thiểu số – những nhóm dễ bị bỏ quên trong các đánh giá chuẩn hóa. Nếu không có cơ chế điều chỉnh phù hợp, dữ liệu thu được có thể phản ánh sai lệch năng lực thực và dẫn đến chính sách bất lợi.

Đo lường chất lượng dạy học Toán không chỉ đơn thuần là hành vi kỹ thuật nhằm thu thập dữ liệu, mà là quá trình kiến tạo tri thức, góp phần định hình cách xã hội hiểu, đánh giá và cải thiện giáo dục. Những phân tích quốc tế đã chỉ ra rằng sự phong phú công cụ chưa đủ để bảo đảm giá trị khoa học nếu thiếu đi khung diễn giải rõ ràng, bằng chứng hợp lệ đa diện và đặc biệt là nguyên tắc công bằng. Việc đo lường, vì thế, không thể chỉ là công cụ kiểm soát, mà cần được tái định vị như một đòn bẩy để thúc đẩy đổi mới sư phạm, phát triển năng lực giáo viên và nâng cao cơ hội học tập cho mọi học sinh.

Trong bối cảnh Việt Nam đang triển khai Chương trình Giáo dục phổ thông 2018 và các chính sách đổi mới sáng tạo, bài học quốc tế khẳng định rằng một hệ thống đo lường hiện đại phải gắn chặt với khung chính sách quốc gia, song song tiếp thu chuẩn mực quốc tế. Chỉ khi ấy, đo lường mới trở thành phương tiện bảo đảm tính khoa học, thúc đẩy sự minh bạch, đồng thời kiến tạo một nền giáo dục công bằng, nhân văn và thích ứng với thách thức của kỷ nguyên số.

Vân An

Tài liệu tham khảo

AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. Washington, DC: AERA.

Berliner, D. (2005). The near impossibility of testing for teacher quality. Journal of Teacher Education, 56(3), 205–213.

Gallagher, M. A., Folger, T. D., Walkowiak, T. A., Wilhelm, A. G., & Zelkowski, J. (2025). Measuring Mathematics Teaching Quality: The State of the Field and a Call for the Future. Education Sciences, 15(9), 1158. https://doi.org/10.3390/educsci15091158

Hill, H. C., Ball, D. L., & Schilling, S. G. (2008). Unpacking pedagogical content knowledge. Journal for Research in Mathematics Education, 39(4), 372–400.

Jacobs, V. R., & Spangler, D. A. (2017). Research on noticing: Studying teacher noticing. In G. Kaiser (Ed.), Compendium for research in mathematics education (pp. 606–636). NCTM.

Jonson, J. L., & Geisinger, K. F. (2022). Fairness in testing: Critical issues and current perspectives. Educational Measurement: Issues and Practice, 41(1), 1–12.

Kane, M. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1–73.

Litke, E., et al. (2021). Equity in mathematics instruction: Toward a framework. Journal for Research in Mathematics Education, 52(4), 426–458.

Pianta, R. C., La Paro, K. M., & Hamre, B. K. (2012). Classroom Assessment Scoring System (CLASS). Paul H. Brookes Publishing.

Praetorius, A. K., & Charalambous, C. Y. (2018). Classroom observation frameworks for studying instructional quality. ZDM Mathematics Education, 50(3), 535–553.

Shepard, L. A. (2016). The role of assessment in a learning culture. Educational Researcher, 25(4), 4–14.

van der Lans, R. M. (2018). Combining teacher observation and student surveys. Educational Assessment, Evaluation and Accountability, 30(1), 37–60.

Bạn đang đọc bài viết Đo lường chất lượng dạy học Toán: Từ tranh luận học thuật đến định hình chính sách giáo dục tại chuyên mục Khoa học giáo dục và xã hội của Tạp chí Giáo dục. Mọi thông tin góp ý và chia sẻ, xin vui lòng liên hệ SĐT: (+84)2462598109 hoặc gửi về hòm thư tapchigiaoduc@moet.gov.vn

 

Hội thảo quốc tế

Hội thảo quốc gia

Phòng, chống COVID-19