Trí
tuệ nhân tạo, sân chơi mới của tin tặc
Lê Tây Sơn
10 tháng 8, 2023
https://saigonnhonews.com/doi-song/cong-nghe/tri-tue-nhan-tao-san-choi-moi-cua-tin-tac/
Nhờ trí tuệ nhân tạo (AI), tin tặc có thể tấn công đơn giản bằng cách chỉ
cần tập kích những câu lệnh bậy bạ thông qua một phần mềm quấy rối nào đó để AI
hoang mang và… tự lập trình lại!
https://saigonnhonews.com/wp-content/uploads/2023/08/joan-gamell-XmZ4GDAp9G0-unsplash-1024x683.jpg
Minh họa: joan-gamell-unsplash
Kỹ
thuật đánh lừa AI
Sử dụng một kỹ thuật gọi là “prompt injection” (tập kích lời nhắc), tin tặc
có thể phá vỡ các hệ thống AI như ChatGPT bằng những câu lệnh tiếng Anh. Khả
năng phản hồi nhanh chóng và hiệu quả đối với các lệnh đơn giản của ChatGPT đã
thu hút hơn 100 triệu người dùng nhưng cũng là “sân chơi mới” cho tin tặc. Chuyên
viên nghiên cứu bảo mật Johann Rehberger đã thử tìm hiểu vấn đề này.
Sử dụng loại tiếng Anh đơn giản, gần đây ông đã thuyết phục chatbot của
OpenAI làm điều một điều tồi tệ: Đọc lén email đến trong hộp thư của ông, tóm tắt
nó và phát tán lên mạng internet. Rehberger cho biết nếu kỹ thuật “prompt
injection” này nằm trong tay tội phạm, chúng có thể sử dụng để đánh cắp dữ liệu
nhạy cảm từ hộp thư email đến của mục tiêu.
“ChatGPT đã hạ thấp rào cản đối với tất cả các loại tấn công vì tin tặc
không thực sự cần phải viết mã và không cần phải có kiến thức sâu rộng về khoa
học máy tính hay hacking” – ông nói. Cuộc tấn công thử nghiệm của Rehberger
không ảnh hưởng nhiều vì ông chỉ mới sử dụng tính năng beta (chưa hoàn chỉnh) của
phần mềm để dụ ChatGPT truy cập vào các ứng dụng như Slack, Gmail của ông. Một
phát ngôn viên của OpenAI phản hồi:
“Chúng tôi đánh giá cao việc ông Rehberger chủ động thông báo cuộc thử
nghiệm của mình và chúng tôi đã triển khai bản sửa lỗi ChatGPT để không cho nó
tiến hành các cuộc tấn công như thế trong tương lai. Chúng tôi rất biết ơn cộng
đồng mạng đã cung cấp cho chúng tôi những phát hiện quan trọng mà chúng tôi cần
để làm cho ChatGPT an toàn hơn”.
Wall Street Journal cho biết, kỹ
thuật “prompt injection” của Rehberger là một trong những loại tấn công mạng
ngày càng được quan tâm khi các công ty công nghệ đưa thế hệ phần mềm AI mới
vào hoạt động kinh doanh và các ứng dụng của họ. Sự phổ biến của AI như ChatGPT
đang định nghĩa lại ý nghĩa của hoạt động tin tặc, và các nhà nghiên cứu bảo mật
đang chạy đua để vá các lỗ hổng trước khi các hệ thống AI phổ biến hơn.
Các chuyên gia về thông tin sai lệch dự báo sẽ có các cuộc tấn công “đầu
độc dữ liệu” (tin tặc can thiệp vào các dữ liệu được sử dụng để đào tạo một hệ
thống AI, khiến các câu trả lời của nó bị sai lệch). Nói rõ hơn, tin tặc sử dụng
kỹ thuật tập kích lời nhắc để AI hoang mang và tự điều chỉnh câu trả lời theo
hướng xấu.
Một số nhà nghiên cứu lo lắng tin tặc sẽ biến những câu trả lời “chuẩn” của
AI thành lệch lạc, đánh lừa người dùng. Các chuyên gia bảo mật quan tâm đến
nguy cơ bí mật của các công ty sẽ bị rò rỉ khi AI được tin tặc điều khiển để chọc
thủng tuyến phòng thủ an ninh. Loại tấn công vào “hàng rào bảo vệ cuối cùng” đã
là một mối lo ngại trong nhiều thập niên (năm 2004, một nhà nghiên cứu tên là
John Graham-Cumming đã dạy được một hệ thống AI cách vượt qua bộ lọc thư rác do
ông xây dựng) nhưng chưa bao giờ trở thành thách thức lớn như hiện nay.
Các công
ty sử dụng AI chủ động đối phó
Các hệ thống AI (như ChatGPT) được xây dựng bởi các công ty như OpenAI,
Google và Anthropic sẽ được mở ra cho những người tham dự hội nghị hack DEFCON
hàng năm ở Las Vegas (năm nay là ngày 10 đến ngày 13 Tháng Tám) thi tài tấn
công.
Khoảng 150 tin tặc được mời tiến hành cùng lúc cuộc tấn công vào các hệ
thống này và giải thưởng sẽ dành cho những cuộc tấn công “nguy hiểm” nhất. Những
hệ thống như ChatGPT sử dụng công nghệ Generative-AI để tạo câu trả lời, giống
như một công cụ tự động điền trên giấy. Đằng sau hậu trường, những hệ thống này
được điều khiển bằng các hướng dẫn bằng ngôn ngữ đơn giản (được gọi là lời nhắc-prompt)
để giúp chúng xây dựng các câu trả lời suôn sẻ.
Các hệ thống AI được hướng dẫn không được làm những điều xấu, như tiết lộ
thông tin nhạy cảm hoặc nói những điều xúc phạm, nhưng các chuyên gia mạng như
Rehberger đã tìm ra cách ghi đè lên các hướng dẫn này. Kết quả là hệ thống mất
phương hướng và tự vận hành nên câu trả lời sẽ đi ra ngoài các hướng dẫn. Cách
Rehberger lừa ChatGPT là “hét” vào hệ thống các mệnh lệnh dồn dập khiến nó lúng
túng và cuối cùng là làm bậy vì không còn hướng dẫn.
Đã có sự gia tăng các cuộc tấn công “prompt-injection” kể từ khi ChatGPT
được phát hành vào Tháng Mười Một năm ngoái. Nhiều người sử dụng kỹ thuật này để
đánh lừa chatbot, làm cho nó lúng túng đến nỗi quên mất những gì nó phải trả lời,
và kết quả là tự học lại theo… hướng xấu.
Arvind Narayanan, giáo sư khoa học máy tính tại Đại học Princeton nhận định:
“Tính năng prompt-injection hoạt động tốt vì các hệ thống AI không phải lúc nào
cũng áp dụng chính xác các hướng dẫn vào các dữ liệu chúng được học”.
Những nhà sản xuất các hệ thống như ChatGPT cố gắng hết sức để dự đoán
cách chúng có thể bị lạm dụng, và tại hội nghị hack DEFCON tuần này ở Las
Vegas, họ muốn tìm hiểu thêm các kỹ thuật tấn công mới với sự góp sức của hàng
ngàn tin tặc.
Các tin tặc sẽ cạnh tranh và ban giám khảo sẽ xếp hạng các phát hiện tốt
nhất về an ninh. Những tin tặc dự tranh có nhiều cách khác nhau để kiếm điểm, từ
prompt-injection đến tìm ra những thiếu sót của hệ thống hoặc phá vỡ cơ chế an
toàn được tích hợp bên trong.
“Với AI, bạn cần chú ý đến nhiều thứ khác hơn thay vì chỉ các lỗ hổng bảo
mật” – Sven Cattell thuộc ban tổ chức nói. Vào Tháng Tư, Google đã thêm AI vào
dịch vụ phân tích phần mềm độc hại VirusTotal của mình, trong đó bất kỳ phầm mềm
nào được tải lên hệ thống cũng được phân tích và AI sẽ mô tả tóm tắt về chúng.
Nhưng chỉ sau vài giờ, một hacker ẩn danh tên Eatscrayon đã chỉnh sửa một
số mã trong một phần mềm độc hại thường được hacker sử dụng và tải nó lên
VirusTotal. Thay đổi này đã đánh lừa hệ thống AI khiến nó không biết đó là phần
mềm độc hại và cho qua. Một phát ngôn viên của Google giải thích: “Hệ thống AI
của chúng tôi ban đầu bị nhầm lẫn nhưng nó đã nhanh chóng học được cách phát hiện
tốt hơn một phần mềm xấu đã bị sửa mã”.
Tóm lại, khi các ứng dụng sử dụng hệ thống AI nhiều hơn, tin tặc có thể
tìm ra những cách mới để truy cập dữ liệu cá nhân hoặc hệ thống máy tính. Càng
có nhiều ứng dụng trên thiết bị dùng các mô hình ngôn ngữ như ChatGPT để đưa ra
câu trả lời thì càng có nhiều cách đánh lừa những mô hình ngôn ngữ để câu trả lời
không đúng với yêu cầu.
No comments:
Post a Comment