Khám phá cụm từ khó đọc qua nền tảng Talbots

Các cụm từ khó đọc (hay gọi là tortured phrases) được đặc trưng bởi sự phức tạp và mơ hồ, khiến cho chúng ta khó hiểu được ý nghĩa thật sự của tác giả muốn truyền tải đến độc giả. Hiện tượng này đã tồn tại trong một thời gian dài và đang ngày càng gia tăng, gây ra mối đe dọa đối với sự uy tín của văn bản học thuật. Thay vì sử dụng cụm từ artificial intelligence networks thì các tác giả lại dùng counterfeit neural organizations, hay cụm từ representation learning được đổi thành portrayal learning. Để tìm hiểu hiện tượng này, nhóm chúng tôi đã phát triển một công cụ có tên Talbots để giúp phát hiện các cụm từ khó đọc trong các văn bản khoa học bằng tiếng Anh. Mục tiêu chính của chúng tôi mong muốn tìm hiểu sự ảnh hưởng của sự xuất hiện các cụm từ khó đọc sẽ ảnh hưởng như thế nào đến độc giả, nhà xuất bản hoặc đơn vị nghiên cứu giáo dục.

Trong quá trình nghiên cứu, chúng tôi đã phát hiện ra rất nhiều cụm từ khó đọc đã cản trở sự hiểu biết của chúng tôi về ý nghĩa thật sự của các tác giả. Ví dụ, trong một bài báo được xuất bản năm 2021, chúng tôi bắt gặp câu văn: "The secret segments move dependent upon the disease. Coronary vein disease, stroke, and periphery supply course ailment incorporate atherosclerosis." Sau khi kiểm tra kỹ hơn, chúng tôi nhận ra rằng câu văn đúng ý là: “The underlying mechanisms vary depending on the disease. Coronary artery disease, stroke, and peripheral artery disease involve atherosclerosis.” Những câu như thế này đã khiến chúng tôi gặp không ít khó khăn trong việc hiểu ý nghĩa mà tác giả muốn truyền tải.

Cụm từ khó đọc	Nghĩa dự kiến
information mining	data mining
recognizable proof	identification
informational collection	data collection
profound learning	deep learning
vitality utilization	energy use
information science	data science
choice tree	decision tree search
huge information	big data
carboxylic corrosive	carboxylic acid

^{Bảng 1 - Danh sách cụm từ khó đọc và nghĩa dự kiến của chúng}

Nghiên cứu của chúng tôi được tiến hành trong hai giai đoạn. Giai đoạn một bao gồm, phát hành một thư viện cùng tên Talbots trên nền tảng PyPi để giúp các nhà khoa học hứng thú về chủ đề này có thể sử dụng sớm mã nguồn mở của chúng tôi. Giai đoạn hai chính là phát hành một nền tảng website nguyên mẫu miễn phí cho cộng đồng sử dụng để khám phá những cụm từ khó đọc trong văn bản học thuật mà họ quan tâm. Và trong bài viết này, chúng tôi mong muốn giới thiệu Talbots như là một công cụ hỗ trợ tìm kiếm, phát hiện các cụm từ khó đọc, đồng thời cũng giúp người dùng tải các bản pdf của các bài báo khoa học thông qua API của Crossref, Sci-hub, và arXiv. Bản thảo cuối cùng của nghiên cứu đang trong quá trình nộp đến một tạp chí khoa học xem xét xuất bản, vì thế những kết quả liên quan đến quá trình nghiên cứu, bao gồm dữ liệu, phân tích, mô hình máy học... sẽ không được chúng tôi đề cập trong bài viết này. Tuy nhiên, chúng tôi cũng cung cấp một bản in trước chưa đầy đủ thông tin về nghiên cứu này đến người dùng trên nền tảng Research Square.

talbots_1

^{Hình ảnh 1 - Ảnh chụp màn hình trang chủ của nền tảng Talbots}

Để đảm bảo người dùng có thể hiểu và sử dụng Talbots một cách hiệu quả nhất, chúng tôi giới thiệu một hướng dẫn ngắn gọn như sau:

Về mặt chức năng, Talbots được phát triển và công bố trên nền tảng web cơ bản và hoàn toàn miễn phí với chức năng hỗ trợ người dùng tìm kiếm các bài báo khoa học thông qua API của Crossref, Sci-hub, và arXiv. Một khi hệ thống tìm kiếm được bản pdf của bài báo, nó sẽ tiến hành xử lý và phân tích để đưa ra một bản báo cáo tổng quát siêu dữ liệu về bài báo khoa học mà người dùng đang tìm. Thông thường sẽ có 4 trường hợp kết quả mà người dùng nhận được, bao gồm:

Trạng thái positive sẽ được bật (màu xanh dương) nếu hệ thống tìm thấy bản pdf của bài báo và không phát hiện bất kỳ cụm từ khó đọc nào tồn tại trong bài báo,
Trạng thái negative sẽ được bật (màu đỏ) nếu hệ thống tìm thấy bản pdf của bài báo và phát hiện tồn tại ít nhất một cụm từ khó đọc tồn tại trọng bài báo,
Trạng thái unknown sẽ được bật (màu vàng) nếu hệ thống không tìm thấy bản pdf của bài báo thông qua API của Crossref, Sci-hub, và arXiv, nhưng tìm thấy thông tin siêu dữ liệu của nó,
Trạng thái error sẽ được bật (màu trắng + kèm với cảnh báo) nếu hệ thống không tìm thấy bất kỳ thông tin nào của bài báo. Trường hợp này có thể xảy ra nếu người dùng nhập sai hoặc liên kết DOI không tồn tại.

Thông tin siêu dữ liệu sẽ bao gồm các thông tin định danh của một bài báo khoa học do Crossref xác định khi một bài báo được duyệt công bố thông qua các tạp chí khoa học hoặc các nền tảng cung cấp bản in trước của nó. Thông tin siêu dữ liệu bao gồm: tên bài báo, danh sách tác giả, thông tin nhà xuất bản, thông tin ngày xuất bản, tóm tắt của bài báo, hoặc các thông tin khác về trạng thái của một bài báo khoa học như bài báo mà người dùng đang tìm kiếm có bị rút lại hay không... Để xem những thông tin siêu dữ liệu này, người dùng có thể nhấn vào liên kết "show more details" ở trang thông tin tìm kiếm. Ngoài ra, người dùng muốn tải bản pdf của các bài báo thì chỉ cần nhấn vào liên kết "download" bên dưới trong thông tin tìm kiếm trên nền tảng Talbots.

talbots_2

^{Hình ảnh 2 - Ảnh chụp màn hình trang chi tiết sau khi tìm kiếm một bài báo khoa học bằng liên kết DOI}

Trong bản cập nhật trang web Talbots ngày 10 tháng 12 năm 2023, chúng tôi cũng bổ sung một chức năng mới là "upload pdf". Với chức năng này, người dùng có thể đăng tải bản pdf bản thảo của họ lên và kiểm tra xem liệu bản thảo (tiếng Anh) của họ có chứa bất kỳ cụm từ khó đọc nào hay không. Trong bản thông tin chi tiết sau quá trình hệ thống kiểm tra, người dùng có thể biết chính xác vị trí câu văn trong bản thảo của họ chứa cụm từ khó đọc. Từ đó, người dùng có thể kiểm tra lại và chỉnh sửa (nếu cần) để bản thảo của họ chất lượn và tránh vô tình sử dụng cụm từ khó đọc mà không biết. Lưu ý, hệ thống chúng tôi không lưu trữ bất kỳ một bản sao nào đối với tất cả tài liệu mà người dụng đăng tải. Điều này có nghĩa người dùng sẽ không thể tìm lại được kết quả phân tích của hệ thống sau khi thoát khỏi trang kết quả chi tiết.

Để phổ biến về những ảnh hưởng của những cụm từ khó đọc đối với các tài liệu học thuật, cũng như giúp người dùng có thể tránh sử dụng những cụm từ khó đọc trong các tài liệu khoa học, chúng tôi có cung cấp thêm các liên kết khác bao gồm: tập dữ liệu thô chưa qua xử lý, hướng dẫn truy cập API, thư viện mã nguồn mở. Mặc dù, Talbots được cung cấp hoàn toàn miễn phí, nhưng chi phí để vận hành nó cũng rất lớn, trung bình mỗi tháng chúng tôi phải chi trả khoảng $800 - $900 để duy trì nó. Vì thế, chúng tôi cũng nhiệt liệt chào đón sự đóng góp của cộng đồng thông qua mục liên kế "donation" trên trang chủ của Talbots.

Cuối cùng, thông qua nền tảng Talbots này, chúng tôi hy vọng nó sẽ thật sự hữu ích để hỗ trợ người dùng tìm kiếm, tải các bản pdf của các bài báo khoa học, cũng như mở rộng sự hiểu biết của cộng đồng về các cụm từ khó đọc trong các tài liệu khoa học. Từ đó, mọi người sẽ có thể tránh sử dụng những cụm từ khó đọc này trong các tài liệu khoa học của mình, góp phần tạo nên một môi trường học thuật lành mạnh, chính xác, đáp ứng sự kỳ vọng và lòng tin của mọi người đối với hoạt động nghiên cứu khoa học.

Posted date: 11/12/2023

Author: Tan H. Nguyen

Comment

Blogs

Khám phá cụm từ khó đọc qua nền tảng Talbots