Kỹ thuật tấn công TokenBreak mới vượt qua sự kiểm duyệt của AI bằng cách thay đổi văn bản một ký tự

Thứ hai - 23/06/2025 16:50 10 0
Công ty bảo mật AI HiddenLayer (Mỹ) mới đây đã phát hiện ra một kỹ thuật tấn công mới có tên là TokenBreak, có thể được sử dụng để vượt qua các rào cản kiểm duyệt nội dung và an toàn của mô hình ngôn ngữ lớn (LLM) chỉ bằng một thay đổi ký tự.
AI

Các nhà nghiên cứu Kieran Evans, Kasimir Schulz và Kenneth Yeung cho biết: “Cuộc tấn công TokenBreak nhắm vào chiến lược mã hóa của mô hình phân loại văn bản để tạo ra kết quả âm tính giả (false negatives), khiến mục tiêu cuối dễ bị tấn công mặc dù mô hình bảo vệ đã được triển khai để ngăn chặn”.

Tokenization là một bước cơ bản mà LLM sử dụng để chia nhỏ văn bản thô thành các token – các chuỗi ký tự phổ biến được tìm thấy trong một tập hợp văn bản. Để đạt được mục đích đó, đầu vào văn bản được chuyển đổi thành biểu diễn số của chúng và đưa vào mô hình.

Kỹ thuật tấn công do HiddenLayer đưa ra nhắm vào chiến lược mã hóa để vượt qua khả năng phát hiện dữ liệu đầu vào độc hại và đánh dấu các vấn đề liên quan đến an toàn, thư rác hoặc kiểm duyệt nội dung trong dữ liệu đầu vào văn bản của mô hình phân loại văn bản.

Cụ thể, nhóm các nhà nghiên cứu của HiddenLayer phát hiện việc thay đổi các từ đầu vào khi thêm các chữ cái theo những cách nhất định có thể khiến mô hình phân loại văn bản bị xáo trộn.

Ví dụ bao gồm việc đổi “instructions” thành “finstructions”, “announcement” thành “aannouncement” hoặc “idiot” thành “hidiot”. Những thay đổi tinh vi này khiến các trình phân tách văn bản chia văn bản theo những cách khác nhau, trong khi vẫn giữ nguyên ý nghĩa của chúng đối với mục tiêu dự định.

Điều khiến cuộc tấn công này đáng chú ý là văn bản đã chỉnh sửa vẫn hoàn toàn có thể hiểu được đối với cả LLM và người đọc, khiến mô hình đưa ra phản hồi tương tự như trường hợp văn bản chưa chỉnh sửa được truyền vào. Bằng cách đưa ra các thao tác theo cách không ảnh hưởng đến khả năng hiểu mô hình, TokenBreak tăng khả năng tấn công tiêm mã độc ngay lập tức.

"Kỹ thuật tấn công này thao túng văn bản đầu vào theo cách mà một số mô hình đưa ra phân loại không chính xác. Điều quan trọng là mục tiêu cuối cùng (LLM hoặc người nhận email) vẫn có thể hiểu và phản hồi văn bản đã bị thao túng và do đó dễ bị tấn công bởi chính mô hình bảo vệ được đưa ra để ngăn chặn”, các nhà nghiên cứu cho biết.

Cuộc tấn công này được phát hiện là thành công đối với các mô hình phân loại văn bản sử dụng BPE (mã hóa cặp byte) hoặc các chiến lược mã hóa WordPiece, nhưng không thành công với các mô hình sử dụng Unigram.

Để chống lại kỹ thuật TokenBreak, các nhà nghiên cứu đề xuất sử dụng các tokenizer Unigram khi có thể, đào tạo các mô hình với các ví dụ về kỹ thuật bypass và kiểm tra xem tokenization và logic mô hình có được căn chỉnh hay không, nó cũng giúp ghi lại các phân loại sai và tìm kiếm các mẫu gợi ý về thao túng.

Tác giả: Hồng Đạt

Nguồn tin: Tạp chí An toàn thông tin

Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây