Một số lưu ý khi sử dụng Turnitin để kiểm tra tài liệu bằng tiếng Việt

Những năm gần đây, để đảm bảo tính liêm chính trong hoạt động đào tạo và nghiên cứu, nhiều trường đại học đã có tiến hành sử dụng phần mềm Turnitin để rà soát các sản phẩm học thuật. Tuy nhiên, việc sử dụng Turnitin hiện tại vẫn chưa hiệu quả và đang dẫn đến các vấn đề đáng quan ngại khác do những hiểu lầm về Turnitin. Thông qua tìm hiểu về phần mềm này và thử nghiệm sử dụng Turnitin với các tài liệu tiếng Việt, chúng tôi đưa ra một số thảo luận và khuyến nghị dưới đây.

Turnitin là phần mềm kiểm tra sự trùng lặp và phòng chống đạo văn, với ưu điểm là kho cơ sở dữ liệu lớn và khả năng rà soát văn bản ở nhiều thứ tiếng. Turnitin được sử dụng rộng rãi trên các cơ sở học thuật (trường đại học, nhà xuất bản,...) trên thế giới.

Hiểu thêm về Turnitin 

Turnitin đưa ra tỉ lệ trùng lặp, tương đồng và đây không phải là tỉ lệ đạo văn. Turnitin giúp hỗ trợ đối chiếu văn bản hiện tại với kho dữ liệu các tài liệu đã có và phát hiện các điểm giống nhau. Thuật toán và kho dữ liệu của Turnitin không được công bố rõ ràng, ngoài việc tuyên bố rằng nó có thể phát hiện các sự trùng về từ (match words). Khi xem xét các bản báo cáo (similarity report) của Turnitin có thể thấy thông qua đối chiếu 1-1 giữa các tài liệu, Turnitin đưa ra điểm tương đồng (similarity score). Đây cũng là chỉ số hiện đang được sử dụng để đánh giá mức độ đạo văn của tài liệu được kiểm tra. 

Trong số các tài liệu đối chiếu, có những tài liệu chỉ trùng một số cụm từ lặp lại xuyên suốt bài với tỉ lệ trùng là dưới 1% với tài liệu được kiểm tra. Đây không được coi là đạo văn, vì các từ khóa trung tâm của vấn đề nghiên cứu sẽ được nhắc liên tục trong tài liệu là việc không tránh khỏi. Tuy nhiên khi cộng gộp chục nguồn dưới 1% sẽ dẫn đến điểm tương đồng cao. 

Do đó, việc Turnitin bôi màu rải rác có thể vẫn chưa bị coi là đạo văn dù điểm tương đồng cao. Ngược lại, trong văn bản bị bôi màu liền mạch một đoạn hoặc nhiều đoạn được coi là đạo văn kể cả khi điểm tương đồng thấp. 

Nhìn chung, Turnitin mới xuất hiện và được sử dụng gần đây tại Việt Nam, nên việc đạo văn trước đó đã diễn ra nhiều. Các tài liệu (luận văn, giáo trình, công trình nghiên cứu,...) được đăng tải lên các trang web công khai cũng được sao chép ở nhiều tài liệu khác. Vậy nên, việc sao chép từ một nguồn công khai có thể bị đánh dấu trùng lặp với nhiều các nguồn khác cũng sao chép nó và dẫn đến điểm tương đồng cao. 

Turnitin có những công cụ lọc để hỗ trợ việc đánh giá tốt hơn. Bộ lọc được sử dụng phổ biến ở quốc tế là lọc tài liệu tham khảo. Turnitin tuyên bố rằng, khi sử dụng bộ lọc này, hệ thống sẽ không đánh dấu trùng lặp ở phần có tiêu đề “bibliography”, “references”, và một danh sách các tên tiêu đề tương tự. Đồng thời, Turnitin cũng có tuyên bố rằng, thuật toán của họ có thể loại bỏ các trùng lặp ở phần danh mục và các các nội dung liên qua được trích dẫn trong bài (in-line citation). Tuy nhiên, điều này chỉ áp dụng cho tài liệu Tiếng Anh và việc trích dẫn không chuẩn theo các bộ quy tắc cũng khiến bộ lọc này không hoạt động được. Khi sử dụng công cụ này đối với bản thảo tiếng Anh, chúng tôi nhận thấy điểm tương đồng giảm đáng kể và phần danh mục tham khảo không còn bị đánh dấu trùng lặp. Tuy nhiên, đối với các tài liệu Tiếng Việt, bao gồm cả các tài liệu được trích dẫn theo các quy tắc APA và Harvard, điểm tương đồng không thay đổi nhiều và phần tài liệu tham khảo vẫn bị đánh dấu trùng sau khi sử dụng bộ lọc. 

Bên cạnh đó, Turnitin cũng có bộ lọc các đoạn trích dẫn nguyên văn. Bộ lọc không phổ biến do một số vấn đề về lạm dụng dẫn nguyên văn. Nếu văn bản của chúng ta lặp lại quá nhiều nguyên văn của người khác thì nó không thể hiện điểm mới hay tính sáng tạo. Vậy nên phần trích dẫn nguyên văn thường được bao gồm trong mức điểm tương đồng được chấp nhận. Một số chuyên ngành đặc trưng, như ngành luật bắt buộc phải trích dẫn nguyên văn các điều luật, thì việc áp dụng bộ lọc này lại là cần thiết. Để bộ lọc hoạt động cũng đảm bảo dẫn trực tiếp đúng hình thức có sử dụng dấu câu trích dẫn trực tiếp theo định nghĩa của Turnitin, ví dụ: dấu ngoặc kép (“...”).

2. Khuyến nghị về sử dụng Turnitin hiệu quả khi quét tài liệu tiếng Việt 

2.1 Sử dụng bộ lọc loại trừ một số nguồn: 

(Để vào bộ lọc, mở cửa sổ báo cáo và lựa chọn ký từ hình )

Turnitin có 2 bộ lọc để loại trừ một số nguồn bị trùng những cụm từ phổ biến: 

- Bộ lọc loại trừ các nguồn có trùng lặp dưới tỉ lệ nhất định. Nếu ta lựa chọn bộ lọc này và để 1%, hệ thống sẽ loại bỏ các nguồn có tỉ lệ trùng dưới 1% chữ trong văn bản, trùng 1% trở lên vẫn sẽ bị đánh dấu. 

- Bộ lọc loại trừ các nguồn có trùng lặp dưới số chữ nhất định. 

2.2 Sử dụng bộ lọc danh mục tài liệu tham khảo

Học viên cần được thông báo về việc sẽ kiểm tra bằng Turnitin và hướng dẫn về các quy tắc trình dẫn chuẩn.

Trong trường hợp bộ lọc danh mục tài liệu tham khảo không hoạt động(vẫn đánh dấu các trích dẫn), cần tách riêng phần Danh mục tài liệu tham khảo để kiểm tra lại. 

2.3 Đánh giá việc đạo văn bằng Báo cáo tương đồng (Similarity report)
Khi kiểm tra tài liệu bằng Turnitin cần có sự xem xét kỹ lưỡng bản báo cáo trước và sau khi sử dụng các bộ lọc để đánh giá hoạt động của các bộ lọc. Đồng thời, việc xem lại báo cáo cũng giúp đảm bảo không có việc đạo văn nguyên một khổ hay một đoạn văn dù điểm tương đồng thấp hơn mức quy định. 

Đối với việc kiểm tra các tài liệu đã công bố trước thời điểm rà soát bằng Turnitin, cần cân nhắc đến thời điểm công bố của các tài liệu được cho là nguồn đạo văn của tài liệu được kiểm tra. Turnitin hiện không có bộ lọc về thời gian, vậy nên việc này chỉ có thể được xem xét một cách thủ công.

2.4 Cảnh báo về phương pháp đang được sử dụng để đối phó với Turnitin 

Việc kết luận đạo văn dựa trên điểm tương đồng chung có thể dẫn đến nhiều nhận định sai lầm về hành vi đạo văn của các tác giả. Đồng thời, việc không hiểu rõ cách thức hoạt động của Turnitin cũng khiến cho các tác giả không biết làm sao để chỉnh sửa văn bản của mình, như những trường hợp đã trích dẫn chính xác và những điều này đang dẫn đến những hệ quả tiêu cực khác. Hiện tại, một số trường hợp đối phó với việc kiểm tra trùng lặp bằng cách chèn ký tự lạ vào chữ, chỉnh cỡ chữ nhỏ và chuyển sang màu trắng, ngụy tạo thành dấu cách/khoảng trống giữa các chữ để Turnitin không nhận diện được từ. 

Văn bản ban đầu trong file của học viên

Văn bản sau khi được chỉnh lại cỡ chữ và màu chữ

Những tài liệu sử dụng cách này thường có tỉ lệ chung thấp, có rất nhiều trang bị đánh đạo văn kín trang, nhưng lại có những đoạn hoặc những trang không hề đánh dấu một từ nào. 

Để khắc phục điều này, cần yêu cầu học viên khi gửi file word để kiểm tra buộc phải để một cỡ chữ chuẩn và màu chữ đen. Cán bộ phụ trách, trước khi tải tài liệu lên Turnitin cũng cần xem xét file word, bôi đen toàn bộ văn bản và chuyển về cỡ chữ chuẩn với màu chữ tối và xem xét lại để tránh các gian lận tương tự

Trên website và trong nhiều bài viết hướng dẫn, Turnitin đã lặp lại nhiều lần rằng điểm tương đồng không phải tỉ lệ đạo văn, việc đánh giá đạo văn phụ thuộc vào người kiểm tra và việc đánh giá cần dựa trên xem xét báo cáo tương đồng. Bài viết này cũng nhằm mục đích cung cấp thêm các hiểu biết thêm về Turnitin và một số lưu ý khi sử dụng Turnitin trong việc đánh giá hành vi đạo văn. Qua đây, chúng tôi hi vọng mọi người có thêm các thông tin để sử dụng Turnitin hiệu quả hơn, nhìn nhận khách quan hơn về kết quả rà soát tương đồng của Turnitin với các các tài liệu Tiếng Việt trong việc xác định hành vi đạo văn.

Đoàn Thị Phương Thục

Tài liệu tham khảo:

 

Bạn đang đọc bài viết Một số lưu ý khi sử dụng Turnitin để kiểm tra tài liệu bằng tiếng Việt tại chuyên mục Xuất bản khoa học của Tạp chí Giáo dục. Mọi thông tin góp ý và chia sẻ, xin vui lòng liên hệ SĐT: (+84)2462598109 hoặc gửi về hòm thư tapchigiaoduc@moet.gov.vn

Hội thảo quốc tế

Hội thảo quốc gia

Phòng, chống COVID-19