Chúng ta có thể nhận thấy một xu hướng không thể đảo ngược trong việc thiết lập một nguyên tắc rằng các tập dữ liệu phải được cung cấp rộng rãi cho mục đích nghiên cứu (còn được gọi là dữ liệu mở). Các nhà tài trợ cho các công trình nghiên cứu trên khắp thế giới bày tỏ sự ủng hộ với việc thiết lập các tiêu chuẩn quản lý dữ liệu mở, với tên gọi bộ nguyên tắc FAIR, trong đó bao gồm các yếu tố F (findable) - có thể tìm thấy, A (accessible) - truy cập được, I (interoperable) - có thể tương tác và R (reusable) - có thể tái sử dụng. Các tạp chí cũng đang dần yêu cầu các tác giả cung cấp các bộ dữ liệu gốc đằng sau các nghiên cứu cho các đồng nghiệp có thể truy cập được. Các tập dữ liệu ngày nay cũng đi kèm với một mã định danh đối tượng kỹ thuật số (DOI), cho phép những ai có nhu cầu có thể dễ dàng tìm thấy chúng. Và điều này cho phép các nhà nghiên cứu nhận được sự ghi công phù hợp với công sức họ bỏ ra để tạo ra được các bộ dữ liệu.
Tuy nhiên, thực tế cho thấy một câu chuyện khác. Các hệ thống đánh giá sản phẩm khoa học hiện chưa đề cao giá trị của các dữ liệu mở được chia sẻ tương đương với các sản phẩm đầu ra như bài báo tạp chí hay các chương sách. Các nhà tài trợ và giới lãnh đạo - những người thiết kế ra các hệ thống như vậy - thừa nhận rằng có nhiều dạng sản phẩm khoa học khác nhau, nhưng từ chối công nhận ý tưởng rằng giữa chúng có tồn tại một mối quan hệ thứ bậc.
Trên thực tế, những người giữ các vị trí quan trọng trong giới khoa học thường không dành sự ghi nhận tương đương cho các bộ dữ liệu mở như với các công trình xuất bản truyền thống khác, nhất là khi đưa ra các quyết định như tuyển dụng, thăng chức, hoặc trao tư cách thành viên trong các uỷ ban quan trọng hoặc các hệ thống đánh giá tầm cỡ quốc gia cho tác giả của chúng. Cuộc cách mạng trong lĩnh vực dữ liệu mở chắc chắn sẽ không thể có những bước tiến quan trọng nếu như thực trạng này không có sự thay đổi.
Đầu tháng 4/2022 vừa qua, các nhà nghiên cứu Richard Bethlehem công tác tại Đại học Cambridge, Vương quốc Anh và Jakob Seidlitz công tác tại Đại học Pennsylvania ở Philadelphia, Mỹ cùng các đồng nghiệp của họ đã công bố nghiên cứu mô tả 'biểu đồ' phát triển não bộ (xem thêm tại https://doi.org/10.1038/s41586-022-04554-y). Các biểu đồ này có nội dung tương tự như các biểu đồ ghi lại dữ liệu chiều cao và cân nặng trong suốt chiều dài cuộc đời của một người mà các nhà nghiên cứu và bác sĩ lâm sàng có thể truy cập miễn phí.
Trên thực tế, chưa có nghiên cứu nào từng được thực hiện ở quy mô như vậy: điển hình là trong lĩnh vực khoa học thần kinh, các nghiên cứu thường được dựa trên các tập dữ liệu tương đối nhỏ. Để tạo ra một mẫu có tính đại diện hơn trên quy mô toàn cầu, các nhà nghiên cứu đã tổng hợp khoảng 120.000 bản quét hình ảnh cộng hưởng từ từ hơn 100 nghiên cứu. Không phải tất cả các bộ dữ liệu ban đầu đều có sẵn để các nhà nghiên cứu sử dụng. Chẳng hạn, trong một số trường hợp, các thỏa thuận truy cập dữ liệu chính thức đã hạn chế cách dữ liệu có thể được chia sẻ.
Một số nhà khoa học nắm trong tay các bộ dữ liệu độc quyền đã có cơ hội trở thành đồng tác giả của các bài báo nghiên cứu. Ngược lại, các nhà nghiên cứu chọn chia sẻ dữ liệu dưới dạng truy cập mở chỉ được ghi nhận trong phần trích dẫn hoặc phần lời cảm ơn của bài báo, theo quy ước trong lĩnh vực xuất bản.
Cách làm như vậy không mới và cũng không chỉ giới hạn trong một lĩnh vực nghiên cứu cụ thể nào. Nhưng hệ quả của thực trạng này thường giống nhau: tác giả của các tập dữ liệu được chia sẻ công khai thường không nhận được sự ghi nhận xứng đáng có thể được tính vào quá trình thăng tiến hay phát triển của cá nhân họ, trong khi những người giữ độc quyền dữ liệu và được đứng tên tác giả trong công trình khoa học sẽ có nhiều cơ hội phát triển sự nghiệp hơn từ đó.
Tình trạng trên có thể hiểu được trong bối cảnh quyền tác giả trong một công trình khoa học xuất bản là cách chính để có được sự ghi nhận cho các đóng góp khoa học của một người. Tuy nhiên, nếu dữ liệu mở nhận được sự ghi nhận tương đương với các bài báo khoa học trong các quy trình đánh giá, tuyển dụng và thăng tiến, các nhóm nghiên cứu sẽ mất đi một trong những lý do chính để giữ các dữ liệu của họ ở dạng đóng (độc quyền).
Các trường đại học, nhóm nghiên cứu, cơ quan tài trợ và nhà xuất bản nên cùng nhau cân nhắc làm thế nào để dành sự ghi nhận xứng đáng hơn cho các dữ liệu mở trong các hệ thống đánh giá của họ. Sẽ luôn có một số trường hợp mà các nhà nghiên cứu không được phép truy cập vào các dữ liệu có liên quan đến con người. Chẳng hạn, dữ liệu về trẻ sơ sinh thường rất nhạy cảm và cần phải qua các bài kiểm tra nghiêm ngặt về quyền riêng tư các yếu tố khác trước khi được cung cấp cho các bên thứ ba. Hơn nữa, việc phổ biến các tập dữ liệu thường sẽ mất thời gian và đòi hỏi nguồn tài trợ về kinh phí mà không phải nhà nghiên cứu nào cũng có thể tiếp cận. Ngoài ra, các nhà nghiên cứu ở các nước thu nhập thấp và trung bình lo ngại rằng dữ liệu của họ có thể được các nhà nghiên cứu hoặc doanh nghiệp ở các nước thu nhập cao sử dụng theo những cách mà họ không đồng ý.
Mặc dù vậy, việc ghi công tất cả những người đã đóng góp tri thức của họ cho kết quả nghiên cứu chính là nền móng của khoa học. Quy ước phổ biến hiện nay - theo đó những người chia sẻ công khai dữ liệu của họ cho các nhà nghiên cứu sử dụng chỉ được ghi công trong mục Tài liệu trích dẫn và Lời cảm ơn - cần phải được xem xét lại. Chừng nào quyền tác giả trong một công trình khoa học được xuất bản vẫn được đánh giá cao hơn so với công việc sản xuất dữ liệu phục vụ nghiên cứu, việc mở quyền truy cập các tập dữ liệu sẽ vẫn còn gặp nhiều trở ngại.
Vân An dịch
Nguồn:
Nature (2022). Time to recognize authorship of open data. Nature, 604(7904), 8. https://doi.org/10.1038/d41586-022-00921-x
Ghi chú: Các quan điểm của Tác giả không hẳn là quan điểm của Tạp chí Giáo dục.