Những cơ hội nghiên cứu có được từ các dữ liệu trên các mạng xã hội là không thể phủ nhận. Tuy nhiên, các nhà nghiên cứu thường phân tích những dữ liệu đó bằng các công cụ không được thiết kế để xử lý loại dữ liệu đặc thù này - những dữ liệu quy mô lớn thu được từ mạng xã hội.
Do đó, nhóm tác giả Jason Burton và cộng sự muốn tìm hiểu những khó khăn mà nhà nghiên cứu gặp phải do sự “lệch pha” giữa dữ liệu và phương pháp xử lý kể trên. Nghiên cứu của họ cho thấy đôi khi việc áp dụng các phương pháp xử lý không phù hợp với loại dữ liệu nghiên cứu có thể dẫn đến những kết quả vô lý.
Các kết quả nghiên cứu
Khi một nhà nghiên cứu tìm cách giải quyết một câu hỏi nghiên cứu cụ thể, phương pháp mà họ sử dụng sẽ thường đem lại một trong hai kết quả:
(1) cho thấy có một mối quan hệ tác động, khi thực sự mối quan hệ tác động đó có ý nghĩa,
(2) cho thấy không có mối quan hệ tác động nào, nếu không tìm thấy có mối quan hệ tác động có ý nghĩa nào.
Chẳng hạn, hãy tưởng tượng bạn bị đau lưng mãn tính và bạn thực hiện một cuộc kiểm tra y tế để tìm nguyên nhân. Cuộc kiểm tra xác định có một đĩa đệm đã bị lệch trong cột sống của bạn. Phát hiện này có ý nghĩa quan trọng và dẫn tới một kế hoạch điều trị cho bạn.
Tuy nhiên, nếu sau đó bạn phát hiện ra nếu có một tỷ lệ lớn dân số không bị đau lưng mãn tính nhưng khi thực hiện cùng một xét nghiệm với bạn vẫn cho kết quả đĩa đệm của họ bị lệch, thì kết quả của cuộc kiểm tra sẽ không có mấy ý nghĩa với bạn.
Thực tế cho thấy, việc một kết quả kiểm tra như vậy đã không chỉ ra được một đặc trưng khác biệt nào giữa những ca “âm tính” (không có triệu chứng đau lưng) và ca “dương tính” (có triệu chứng đau lưng) không đồng nghĩa với việc bạn không bị thoát vị đĩa đệm. Do đó, trong trường hợp này, kết quả kiểm tra không hữu ích: tỉ lệ phát hiện “bằng chứng” (ở đây là chứng thoát vị đĩa đệm) ở nhóm người chịu cái “tác động có ý nghĩa” (trong trường hợp này là triệu chứng đau lưng) và nhóm người không chịu tác động đó không có tính chất “chẩn đoán”, và do đó, những thông tin đó không có ý nghĩa.
“Sự lan truyền XYZ”
Sử dụng cùng một cơ sở lý luận như vậy, nhóm nghiên cứu đã đánh giá các phương pháp thường được sử dụng để phân tích dữ liệu từ các mạng xã hội - được gọi là phương pháp "kiểm tra ý nghĩa giả thuyết vô hiệu" và "thống kê tương quan" - bằng cách đặt một câu hỏi nghiên cứu có phần “ngớ ngẩ”.
Các nghiên cứu trước đây (và cả hiện nay) đã tìm cách xác định những yếu tố nào ảnh hưởng đến quyết định có đăng lại các tweet của người dùng Twitter khác lên trang cá nhân của mình (gọi là retweet) hay không. Điều này thú vị bởi nghiên cứu được nó giống như mở ra chiếc “cửa sổ” bước vào suy nghĩ của một người, bởi hành động chia sẻ lại bài đăng là một cơ chế giúp khuếch đại hoặc lan truyền thông tin trên các mạng xã hội.
Vì vậy, chúng tôi quyết định phân tích các dữ liệu thu được trên mạng xã hội Twitter bằng các phương pháp tiêu chuẩn ở trên để xem liệu một tác động vô nghĩa mà chúng tôi gọi là “sự lan truyền XYZ” có ảnh hưởng đến số lượt retweet hay không. Cụ thể, chúng tôi đã đặt ra câu hỏi như sau:
“Liệu số lượng kí tự X, Y và Z trong một bài đăng tweet có làm tăng (hay giảm) khả năng bài đăng đó được retweet lại hay không?”
Khi phân tích sáu tập dữ liệu chứa hàng trăm nghìn tweet, "câu trả lời" mà chúng tôi tìm thấy là có. Ví dụ: trong một tập dữ liệu gồm 172.697 tweet về COVID-19, sự hiện diện của các kí tựX, Y hoặc Z trong một tweet dường như làm tăng phạm vi tiếp cận của dòng tweet đó lên 8%.
Khỏi phải nói, chúng tôi chẳng ai tin rằng số lượng kí tự X, Y hay Z là yếu tố chính dẫn đến việc người dùng Twitter có retweet lại một bài đăng nào đó hay không!
Tuy nhiên, giống như cuộc kiểm tra để chẩn đoán đau lưng, phát hiện của chúng tôi cho thấy rằng đôi khi, các phương pháp phân tích dữ liệu trên mạng xã hội có thể cho ra những kết quả không có ý nghĩa. Điều này đặt ra câu hỏi về mức độ ý nghĩa của những kết quả nghiên cứu thu được bằng cách áp dụng các phương pháp khoa học xã hội đang có vào những dữ liệu mạng xã hội hiện đại ngày nay.
Khi các nhà nghiên cứu đang ngày càng quan tâm phân tích dữ liệu truyền thông xã hội và xác định các yếu tố định hình sự phát triển của dư luận, cách thức chúng “chiếm đoạt” sự chú ý của chúng ta hoặc giải thích hành vi của chúng ta, chúng ta nên có sự xem xét kĩ lưỡng hơn về các phương pháp nghiên cứu được sử dụng để tạo ra những kết quả đó và xem có thể cải tiến được những phương pháp ấy hay không.
Thế nào là một nghiên cứu “có ý nghĩa”?
Các vấn đề được nêu ra trong bài báo của nhóm tác giả trên không phải là mới, và thực sự có nhiều nghiên cứu đã được thực hiện để đảm bảo các kết quả nghiên cứu khoa học xã hội thu được có ý nghĩa mạnh mẽ hơn.
Chẳng hạn, các nhà nghiên cứu được khuyến khích đặt ra trước các giả thuyết và kế hoạch phân tích dữ liệu của họ trước khi bắt đầu một nghiên cứu để ngăn chặn một kiểu “nguỵ tạo dữ liệu” được gọi là “p-hacking”. Một cách khác là kiểm tra xem kết quả nghiên cứu có bị biến động nhiều hay không sau khi loại bỏ các giá trị ngoại lai và kiểm soát các đồng biến. Một yếu tố quan trọng khác là đánh giá liệu các kết quả thu được trong một thử nghiệm có thể lặp lại khi thử nghiệm đó được thực hiện một lần nữa trong các điều kiện tương tự hay không.
Những cách thức kể trên có vai trò quan trọng, nhưng không đủ để giải quyết vấn đề vấn đề ban đầu của chúng ta. Trong khi chúng ta cần phát triển các phương pháp nghiên cứu chuẩn hóa hơn, thì cộng đồng khoa học trước tiên phải suy nghĩ kĩ lưỡng hơn về các yếu tố góp phần giúp một phát hiện mới trong khối dữ liệu thu được từ các mạng xã hội trở nên có ý nghĩa nghiên cứu.
Vân An lược dịch
Nguồn:
Misha Ketchell (2021). Studying social media can give us insight into human behaviour. It can also give us nonsense. The Conversation.
Ghi chú: Các quan điểm của tác giả không hẳn là quan điểm của Tạp chí Giáo dục.