Chính phủ Indonesia nhận thức rõ sự đa dạng về điều kiện kinh tế của người dân trong xã hội; do đó, các chính sách liên quan đến chi tiêu công cho các dịch vụ phải quan tâm đến yếu tố công bằng. Những chính sách được đề ra nhằm đảm bảo mọi công dân đều có thể tiếp cận các dịch vụ do chính phủ cung cấp, trong đó có giáo dục, thông qua việc triển khai chính sách Học phí Đơn của Sinh viên (viết tắt tiếng Indonesia là UKT) (bắt đầu có hiệu lực từ năm 2005).
UKT là một chính sách trong đó quy định mức học phí mà mỗi sinh viên đại học phải trả trong mỗi kỳ học. UKT chia sinh viên thành nhiều nhóm, mỗi nhóm được hưởng một mức học phí khác nhau. Việc xác định một sinh viên thuộc nhóm nào phụ thuộc vào khả năng tài chính của từng em. Khi triển khai chính sách này, các trường đại học sẽ cần đánh giá dữ liệu về sinh viên đó để nắm bắt khả năng tài chính, từ đó xác định nhóm UKT phù hợp cho họ.
Tiêu chí chính được sử dụng để xác định nhóm UKT phù hợp cho sinh viên là mức thu nhập của cha mẹ các em. Tuy nhiên, không thể xác định năng lực tài chính của sinh viên chỉ dựa vào tiêu chí này. Các tiêu chí khác, chẳng hạn như số anh chị em ruột trong nhà, địa phương nơi gia đình sinh sống, và chương trình đào tạo mà sinh viên đang theo học cũng có tác động đến năng lực tài chính của các em.
Với số lượng tiêu chí và dữ kiện cần phân tích, việc xác định nhóm UKT phù hợp cho sinh viên sẽ tốn rất nhiều thời gian, tiền bạc và công sức nếu thực hiện một cách thủ công. Để giải quyết vấn đề này, cần một phương pháp khoa học để xử lý và đưa ra kết luận một cách nhanh chóng cho từng trường hợp. Trong nghiên cứu này, nhóm nghiên cứu tìm hiểu và so sánh các thuật toán phân loại dựa trên việc khai thác dữ liệu và áp dụng trong việc xác định nhóm UKT của sinh viên. Nhóm tác giả sử dụng các kĩ thuật học có giám sát để kiểm nghiệm các thuật toán phân loại khác nhau. Các thuật toán phân loại được đề cập đến trong nghiên cứu này bao gồm Decision Tree, Naïve Bayes (gồm 3 loại con là Gaussian NB, Multinominal NB và Bernoulli NB), và Support Vector Machine (SVM).
Phương pháp nghiên cứu được nhóm tác giả sử dụng gồm 3 bước: xác định các biến số, chuẩn hoá dữ liệu và huấn luyện-thử nghiệm các thuật toán với kĩ thuật học có giám sát. Nguồn dữ liệu phục vụ nghiên cứu này được lấy từ cơ sở dữ liệu sinh viên mới nhập học của Trường Đại học Bách Khoa Ujung Pandang (PNUP) năm 2014. Tập dữ liệu này bao gồm dữ liệu của 3528 sinh viên. Nhóm nghiên cứu thu thập các biến số có khả năng ảnh hưởng đến năng lực tài chính của sinh viên, bao gồm: Thu nhập của Cha và Mẹ, Địa phương nơi sinh sống, Số anh chị em ruột và nhóm ngành học (thương mại hoặc kỹ thuật). Sau đó, dữ liệu của PNUP được chuẩn hoá. Dữ liệu gốc bao gồm hai loại là dữ liệu dạng chuỗi kí tự (string) và dữ liệu dạng số (integer). Do đó, cần thêm bước mã hoá các giá trị (hoặc khoảng giá trị) tương ứng thành các số đại diện. Cuối cùng, nhóm nghiên cứu tiến hành các kiểm nghiệm để tìm thuật toán tốt nhất.
Kết quả nghiên cứu của nhóm cho thấy, các thuật toán phân loại dựa trên khai thác dữ liệu phù hợp để ứng dụng trong việc xác định nhóm UKT của sinh viên Indonesia. Dựa trên kết quả thử nghiệm với năm thuật toán, sử dụng 230 mẫu dữ liệu huấn luyện và kĩ thuật xác thực chéo 10 bước, Decision Tree được chọn là thuật toán phù hợp nhất, với độ chính xác trung bình cao nhất (đạt giá trị 0,814 hay 81,4%). Trong khi đó, nếu chỉ tính giá trị cao nhất, thì thuật toán SVM có một lần đạt độ chính xác cao nhất là 0,958 (tương đương 95,8%).
Vân An lược dịch
Nguồn:
Muhammad Nur Yasir Utomo et al. (2017). Determining Single Tuition Fee Of Higher Education In Indonesia : A Comparative Analysis Of Data Mining Classification Algorithms. 4th International Conference on New Media Studies, Yogyakarta, Indonesia.
Ghi chú: Các quan điểm của tác giả không hẳn là quan điểm của Tạp chí GIáo dục.