Ứng dụng công cụ trí tuệ nhân tạo trong thiết kế câu hỏi trắc nghiệm: Cơ hội, giới hạn và khuyến nghị chính sách cho giáo dục Việt Nam

Sự xuất hiện của các công cụ trí tuệ nhân tạo trong thiết kế câu hỏi trắc nghiệm mở ra kỳ vọng đổi mới căn bản cách thức kiểm tra – đánh giá trong nhà trường. Tuy nhiên, các phân tích thực nghiệm quốc tế cho thấy phần lớn sản phẩm đầu ra vẫn chứa sai sót nghiêm trọng, từ lỗi nội dung đến hình thức, có nguy cơ làm sai lệch kết quả học tập. Điều này đặt ra yêu cầu cấp bách về cơ chế giám sát, khung chính sách phù hợp và vai trò trung tâm của giáo viên nhằm bảo đảm chất lượng của đánh giá.

Trí tuệ nhân tạo (AI) đang thay đổi căn bản phương thức dạy học và kiểm tra đánh giá trong nhà trường. Nếu như trước đây việc soạn đề thi đòi hỏi giáo viên đầu tư nhiều công sức và thời gian, thì nay hàng loạt công cụ AI có thể tạo ra các câu hỏi trắc nghiệm chỉ trong vài giây. Sự tiện lợi này đem lại niềm hy vọng rằng giáo viên có thể tập trung nhiều hơn vào hoạt động giảng dạy và hỗ trợ học sinh, trong khi phần việc “kỹ thuật” của đánh giá được công nghệ gánh vác.

Song, thực tế lại cho thấy bức tranh phức tạp hơn nhiều. Các nghiên cứu đánh giá tính hiệu quả của công cụ AI tạo câu hỏi trắc nghiệm chỉ ra rằng phần lớn đầu ra vẫn còn sai sót đáng kể. Điều này dẫn tới mối lo ngại rằng nếu sử dụng một cách vội vàng, công cụ AI có thể không những không nâng cao chất lượng đánh giá mà còn làm suy giảm độ tin cậy của kết quả học tập. Vấn đề đặt ra không chỉ là khả năng kỹ thuật của AI, mà còn là tính hợp lệ, tính minh bạch và vai trò trung tâm của giáo viên trong toàn bộ quy trình.

Khung lý thuyết và cơ sở khoa học

Để đánh giá chất lượng của công cụ AI, giới học thuật dựa vào các chuẩn mực quốc tế về đo lường giáo dục, tiêu biểu là Standards for Educational and Psychological Testing (AERA, APA & NCME, 2014). Bộ tiêu chuẩn này coi việc tích hợp nhiều nguồn bằng chứng – từ nội dung, quá trình phản hồi đến hệ quả của đánh giá – là nền tảng để đảm bảo công bằng và tin cậy. Trong đó, bằng chứng nội dung (content validity evidence) giữ vai trò trụ cột, bởi nếu câu hỏi không phản ánh đúng kiến thức và kỹ năng mục tiêu, các bước phân tích tiếp theo đều trở nên vô nghĩa.

Bên cạnh đó, lý thuyết về viết câu hỏi trắc nghiệm chuẩn quốc tế (Brookhart & Nitko, 2008; McMillan, 2011; Popham, 2014) cũng là thước đo để kiểm chứng sản phẩm AI. Các nguyên tắc cơ bản bao gồm: chỉ có một đáp án đúng; phương án nhiễu phải hợp lý; ngôn ngữ rõ ràng, tránh mơ hồ; và độ dài lựa chọn cần tương đồng để không tạo lợi thế đoán mò. Những nguyên tắc này vốn đã được khẳng định trong nhiều thập kỷ, nay được áp dụng để đánh giá hiệu quả của AI trong bối cảnh giáo dục số.

Đã tạo hình ảnh

Thực trạng chất lượng câu hỏi do AI tạo ra

Kết quả kiểm chứng trên hàng trăm câu hỏi trắc nghiệm do các công cụ AI tạo ra cho thấy bức tranh còn nhiều bất cập. Khoảng 80% câu hỏi vi phạm ít nhất một nguyên tắc viết câu hỏi chuẩn. Trong đó, gần 74% được đánh giá có lỗi nghiêm trọng – những sai sót đủ sức làm sai lệch kết quả học tập của học sinh nếu câu hỏi được sử dụng nguyên trạng. Chỉ 20% câu hỏi đáp ứng đầy đủ tiêu chuẩn và có thể sử dụng ngay.

Các lỗi phổ biến nhất bao gồm sự mất cân đối về độ dài lựa chọn, dẫn tới khả năng thí sinh chọn đáp án dài hơn vì “có vẻ đúng hơn”. Nhiều câu hỏi thậm chí không có đáp án chính xác hoặc có nhiều hơn một đáp án đúng, làm vô hiệu hóa mục tiêu phân loại năng lực học sinh. Một số câu hỏi sử dụng phương án nhiễu phi logic hoặc trùng từ khóa với đề, vô tình “gợi ý” cho thí sinh. Ngôn ngữ phủ định, mơ hồ cũng xuất hiện với tần suất cao, tạo thêm gánh nặng nhận thức và nguy cơ hiểu sai.

Những lỗi này vốn không xa lạ trong đề thi do con người biên soạn, nhưng khi lặp lại ở quy mô lớn trong sản phẩm AI, chúng tạo thành rủi ro hệ thống. Thay vì nâng cao chất lượng đánh giá, công cụ AI có thể khiến kết quả kiểm tra trở nên kém tin cậy và giảm giá trị trong việc phản ánh năng lực thực sự của học sinh.

Minh bạch, tin cậy và vai trò con người

Một vấn đề đáng lưu tâm là đa số công cụ AI không công bố rõ ràng về công nghệ nền tảng, cũng như không cảnh báo đầy đủ về nguy cơ sai sót. Chỉ một số ít có khuyến nghị người dùng nên kiểm tra lại kết quả trước khi áp dụng. Thậm chí, gần như không có công cụ nào có sự tham gia của chuyên gia đo lường hay giáo viên trong quá trình phát triển. Điều này đi ngược với quan điểm được nhấn mạnh trong nhiều nghiên cứu quốc tế: xây dựng công cụ đánh giá cần sự hợp tác liên ngành giữa nhà giáo dục, nhà tâm lý đo lường và kỹ sư AI (Luckin & Cukurova, 2019; NRC, 2001).

Tính minh bạch là yếu tố quyết định niềm tin của người dùng. Báo cáo của Văn phòng Công nghệ Giáo dục Hoa Kỳ (OET, 2023) yêu cầu các nhà phát triển công cụ AI phải công bố mô hình, thuật toán và đưa ra cảnh báo về rủi ro, đồng thời coi giáo viên là nhân tố trung tâm trong thiết kế và triển khai. Nếu không, AI có thể nhanh chóng trở thành “hộp đen” mà giáo viên bị buộc phải tin dùng nhưng không thể kiểm chứng, dẫn tới lệ thuộc thụ động và tiềm ẩn nhiều sai lầm trong đánh giá.

Kinh nghiệm quốc tế 

Trên thế giới, nhiều đại học nghiên cứu và cơ quan giáo dục đã ban hành hướng dẫn sử dụng AI trong dạy học và đánh giá, trong đó nhấn mạnh các nguyên tắc minh bạch, công bằng, trách nhiệm giải trình và bảo mật (Jobin et al., 2019; Adams et al., 2023). Một số công trình học thuật gần đây còn đề xuất rằng AI trong đánh giá phải được thiết kế dựa trên nguyên lý học tập hiện đại, chú trọng đến sự đa dạng và tính bao trùm (Boscardin et al., 2024).

Tuy nhiên, các nghiên cứu cũng khẳng định AI hiện chỉ có thể đóng vai trò “khởi điểm” chứ chưa thể thay thế quy trình thiết kế đề thi chuyên nghiệp. Việc ứng dụng AI cần gắn liền với đào tạo giáo viên, tăng cường giám sát và thiết lập quy chuẩn kiểm định rõ ràng. Đây là những kinh nghiệm quan trọng cho các quốc gia đang bước vào quá trình chuyển đổi số trong giáo dục.

Khuyến nghị chính sách cho Việt Nam

Trong bối cảnh Việt Nam đang triển khai Chương trình Giáo dục phổ thông 2018, yêu cầu đổi mới kiểm tra – đánh giá được đặt ở vị trí then chốt. Thông tư 22/2016/TT-BGDĐT về đánh giá học sinh tiểu học và các văn bản hướng dẫn tiếp theo nhấn mạnh nguyên tắc đánh giá toàn diện, công bằng và phát triển năng lực. Đồng thời, Nghị quyết 57-NQ/TW (2024) về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số đã xác định rõ nhiệm vụ thúc đẩy ứng dụng AI trong giáo dục, song đi kèm với quản lý rủi ro và chuẩn hóa.

Để đáp ứng yêu cầu này, Việt Nam cần một chiến lược ba tầng. Thứ nhất, ở tầng chính sách vĩ mô, Bộ GD-ĐT cần ban hành Bộ hướng dẫn quốc gia về sử dụng AI trong đánh giá học tập, quy định rõ quy trình thẩm định, trách nhiệm của giáo viên và cơ chế kiểm định sản phẩm AI. Việc này có thể tham chiếu các khuyến nghị quốc tế như báo cáo OET (2023) của Hoa Kỳ, đồng thời điều chỉnh cho phù hợp với khung pháp lý Việt Nam.

Thứ hai, ở tầng nhà trường và đào tạo giáo viên, các trường sư phạm cần đưa vào chương trình đào tạo nội dung về thiết kế và thẩm định câu hỏi với sự hỗ trợ của AI. Giáo viên phải được chuẩn bị kỹ năng giám sát và tinh chỉnh sản phẩm AI, coi đó là năng lực nghề nghiệp mới trong kỷ nguyên số. Việc này không chỉ đáp ứng yêu cầu đổi mới phương pháp đánh giá, mà còn góp phần nâng cao vai trò chủ thể của giáo viên trước sự phát triển nhanh chóng của công nghệ.

Thứ ba, ở tầng nghiên cứu và hợp tác, cần thúc đẩy các dự án phát triển công cụ AI dành riêng cho giáo dục Việt Nam, có sự tham gia của nhà giáo dục, chuyên gia đo lường và kỹ sư công nghệ. Các sản phẩm này vừa cần bám sát Chương trình GDPT 2018, vừa phải tuân thủ các nguyên tắc khoa học quốc tế về đo lường. Bài học từ các quốc gia phát triển cho thấy, nếu thiếu sự tham gia của chuyên gia liên ngành, công cụ AI rất dễ rơi vào tình trạng “thời thượng” nhưng kém giá trị thực tiễn.

Việc triển khai đồng bộ ba tầng chiến lược này sẽ giúp Việt Nam khai thác được lợi ích của AI trong thiết kế câu hỏi, đồng thời giảm thiểu rủi ro sai lệch, đảm bảo đánh giá thực sự là công cụ hỗ trợ học tập chứ không phải gánh nặng hay mối đe dọa.

AI đang mở ra nhiều cơ hội cho đổi mới kiểm tra – đánh giá, đặc biệt trong việc tự động hóa quá trình thiết kế câu hỏi trắc nghiệm. Tuy nhiên, thực tiễn cho thấy chất lượng sản phẩm hiện tại còn nhiều hạn chế, với tỷ lệ sai sót cao và nguy cơ sai lệch kết quả học tập. Vấn đề cốt lõi không chỉ nằm ở năng lực kỹ thuật của công cụ, mà còn ở việc thiết kế minh bạch, sự tham gia của con người và khung chính sách đi kèm. Đối với Việt Nam, đây vừa là cơ hội, vừa là thách thức. Nếu biết khai thác AI như một công cụ hỗ trợ, đồng thời đầu tư cho cơ chế giám sát, đào tạo giáo viên và phát triển công cụ phù hợp bối cảnh, chúng ta có thể biến AI thành động lực nâng cao chất lượng giáo dục. Ngược lại, nếu sử dụng một cách thiếu kiểm soát, nguy cơ lệ thuộc và sai lệch trong đánh giá sẽ ảnh hưởng trực tiếp đến mục tiêu phát triển năng lực người học mà chương trình giáo dục mới đang hướng tới.

Vân An

Tài liệu tham khảo

Adams, C., Pente, P., Lemermeyer, G., & Rockwell, G. (2023). Ethical principles for artificial intelligence in K-12 education. Computers and Education: Artificial Intelligence, 4, 100131. https://doi.org/10.1016/j.caeai.2023.100131

American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. AERA.

Brookhart, S. M., & Nitko, A. J. (2008). Educational assessment of students. Pearson.

Cope, B., Kalantzis, M., & Searsmith, D. (2020). Artificial intelligence for education: Knowledge and its assessment in AI-enabled learning ecologies. Educational Philosophy and Theory, 52(8), 813–828. https://doi.org/10.1080/00131857.2020.1728732

Luckin, R., & Cukurova, M. (2019). Designing educational technologies in the age of AI: A learning sciences-driven approach. British Journal of Educational Technology, 50(6), 2824–2838. https://doi.org/10.1111/bjet.12861

Maslej, N., et al. (2024). The AI Index 2024 Annual Report. Stanford University, Human-Centered AI Institute.

McMillan, J. H. (2011). Classroom assessment: Principles and practice for effective standards-based instruction. Pearson Higher Ed.

Mollick, E., & Mollick, L. (2023). Assigning AI: Seven approaches for students, with prompts. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4475994

NRC (National Research Council). (2001). Knowing what students know: The science and design of educational assessment. National Academies Press.

Rodriguez, M. C. (2005). Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3–13. https://doi.org/10.1111/j.1745-3992.2005.00006.x

Selwyn, N. (2022). Should robots replace teachers? AI and the future of education. Polity.

Thorndike, R. L. (2005). Measurement and evaluation in psychology and education. Pearson.

Williamson, B., Eynon, R., & Potter, J. (2023). Pandemic politics, pedagogical practices and digital technologies: Discourses of containment and care. Learning, Media and Technology, 48(1), 1–15. https://doi.org/10.1080/17439884.2022.2092872

 

Hội thảo quốc tế

Hội thảo quốc gia

Phòng, chống COVID-19