Sau khi máy tính học xong, liệu chúng có thể quên những điều đã học?

Các nhà nghiên cứu tìm hiểu liệu họ có thể xóa dữ liệu nhạy cảm mà không cần đào tạo lại AI từ đầu hay không

Các công ty thuộc mọi lĩnh vực sử dụng máy học để phân tích các mong muốn, những điều không thích hoặc khuôn mặt của mọi người. Một số nhà nghiên cứu hiện đang đặt ra một câu hỏi khác: Làm thế nào chúng ta có thể khiến máy móc quên đi những dữ liệu đã học?

Một lĩnh vực non trẻ của khoa học máy tính là machine unlearning (học máy mất trí nhớ) tìm cách gây mất trí nhớ có chọn lọc trong phần mềm trí tuệ nhân tạo. Mục đích là xóa tất cả dấu vết của một người hoặc một số dữ liệu cụ thể khỏi hệ thống học máy mà không ảnh hưởng đến hiệu suất của nó.

Nếu được đưa vào thực tế, khái niệm này có thể cung cấp cho con người nhiều quyền kiểm soát hơn đối với dữ liệu của họ và giá trị thu được từ nó. Mặc dù người dùng đã có thể yêu cầu một số công ty xóa dữ liệu cá nhân, nhưng nhìn chung họ không biết thông tin đã được điều chỉnh hoặc đào tạo thuật toán nào. Machine unlearning có thể khiến một người có thể thu hồi cả dữ liệu của họ lẫn khả năng thu lợi nhuận từ đó của một công ty.

Khái niệm về mất trí nhớ nhân tạo đòi hỏi một số ý tưởng mới trong khoa học máy tính. Các công ty chi hàng triệ USD để đào tạo các thuật toán máy học nhằm nhận dạng khuôn mặt hoặc xếp hạng các bài đăng trên mạng xã hội, vì các thuật toán này thường có thể giải quyết một vấn đề nhanh hơn so với các lập trình viên.

Nhưng một khi được đào tạo, hệ thống học máy không dễ dàng bị thay đổi, thậm chí không thể hiểu được. Cách thông thường để loại bỏ ảnh hưởng của một điểm dữ liệu cụ thể là xây dựng lại hệ thống từ đầu, một công việc có khả năng gây tốn kém. Aaron Roth, một giáo sư tại Đại học Pennsylvania, người đang nghiên cứu về machine unlearning cho biết: “Nghiên cứu này nhằm mục đích tìm ra một số điểm trung gian. Chúng tôi có thể xóa tất cả ảnh hưởng của dữ liệu khi họ yêu cầu xóa dữ liệu đó, nhưng liệu có thể tránh được toàn bộ chi phí đào tạo lại từ đầu?”

Công nghệ mới này được thúc đẩy một phần bởi sự chú ý ngày càng gia tăng tới việc trí thông minh nhân tạo có thể làm xói mòn quyền riêng tư. Các cơ quan quản lý dữ liệu trên khắp thế giới từ lâu đã có quyền buộc các công ty phải xóa thông tin sai lệch. Công dân của một số khu vực, như EU và California, thậm chí có quyền yêu cầu một công ty xóa dữ liệu của họ nếu họ thay đổi quan điểm về những gì họ đã tiết lộ. Gần đây hơn, các cơ quan quản lý của Hoa Kỳ và châu Âu cho biết chủ sở hữu của các hệ thống AI đôi khi phải đi một bước xa hơn: xóa một hệ thống đã được đào tạo bằng dữ liệu nhạy cảm.

Năm 2020, cơ quan quản lý dữ liệu của Anh đã cảnh báo các công ty rằng một số phần mềm học máy có thể bị áp dụng các quyền GDPR như xóa dữ liệu, vì hệ thống AI có thể chứa dữ liệu cá nhân. Các nhà nghiên cứu bảo mật đã chỉ ra rằng các thuật toán đôi khi có thể bị buộc phải làm rò rỉ dữ liệu nhạy cảm được sử dụng trong quá trình tạo ra chúng. Đầu năm nay, Ủy ban Thương mại Liên bang Hoa Kỳ đã buộc công ty khởi nghiệp nhận dạng khuôn mặt Paravision xóa bộ sưu tập khuôn mặt thu được không đúng cách và các thuật toán máy học được đào tạo với những bức ảnh đó. Ủy viên FTC, Rohit Chopra, ca ngợi chiến thuật thực thi mới đó là một cách để buộc một công ty vi phạm các quy tắc dữ liệu phải “mất đi thành quả của hành vi lừa dối”.

Lĩnh vực nhỏ của nghiên cứu machine unlearning phải vật lộn với một số câu hỏi do những thay đổi chính sách đó đặt ra. Các nhà nghiên cứu đã chỉ ra rằng họ có thể làm cho các thuật toán học máy quên đi trong một số điều kiện nhất định, nhưng kỹ thuật này vẫn chưa sẵn sàng cho ứng dụng chính thức. Roth nói: “Như thường lệ, đối với một lĩnh vực non trẻ, có một khoảng cách giữa những gì lĩnh vực này mong muốn làm và những gì chúng ta có thể làm được”.

Một cách tiếp cận đầy hứa hẹn được đề xuất vào năm 2019 bởi các nhà nghiên cứu từ các trường đại học Toronto và Wisconsin-Madison liên quan đến việc tách dữ liệu nguồn cho một dự án máy học mới thành nhiều phần. Mỗi thứ sau đó được xử lý riêng biệt, trước khi kết quả được kết hợp thành mô hình học máy cuối cùng. Nếu sau này cần quên một điểm dữ liệu, thì chỉ cần xử lý lại một phần dữ liệu đầu vào ban đầu. Phương pháp này được chứng minh là hoạt động được dựa trên dữ liệu mua hàng trực tuyến và bộ sưu tập hơn một triệu bức ảnh.

Roth và các cộng tác viên từ Penn, Harvard và Stanford gần đây đã chứng minh một lỗ hổng trong cách tiếp cận đó, cho thấy rằng hệ thống unlearning sẽ bị hỏng nếu các yêu cầu xóa dữ liệu được gửi đến theo một trình tự cụ thể, do vô tình hoặc do sự can thiệp của tác nhân độc hại. Họ cũng cho thấy vấn đề có thể được giảm thiểu như thế nào. (không hiểu)

Gautam Kamath, một giáo sư tại Đại học Waterloo cũng đang nghiên cứu về unlearning, cho biết vấn đề mà dự án đã tìm ra và khắc phục được là một ví dụ cho rất nhiều câu hỏi mở còn lại về cách khiến machine unlearning không dừng lại ở mức phòng thí nghiệm. Nhóm nghiên cứu của riêng ông đã tìm hiểu mức độ chính xác của hệ thống bị giảm đi bao nhiêu bằng cách “quên” liên tiếp nhiều điểm dữ liệu.

Kamath cũng quan tâm đến việc tìm cách để một công ty chứng minh — hoặc cơ quan quản lý kiểm tra — rằng một hệ thống thực sự đã quên những gì nó cần phải quên.

Các lý do pháp lý để xem xét khả năng của machine unlearning tăng lên khi FTC và những cơ quan khác xem xét kỹ hơn sức mạnh của các thuật toán. Reuben Binns, một giáo sư tại Đại học Oxford, người nghiên cứu về bảo vệ dữ liệu, nói rằng quan điểm cho rằng các cá nhân nên có một số tiếng nói về số phận và thành quả của dữ liệu của họ đang tăng lên trong những năm gần đây ở cả Mỹ và châu Âu. ( không hiểu)

Còn rất nhiều công việc kỹ thuật cần được xử lý trước khi các công ty công nghệ thực sự có thể triển khai machine unlearning như một cách để cung cấp cho mọi người quyền kiểm soát nhiều hơn đối với thuật toán từ dữ liệu của họ. Ngay cả khi đó, công nghệ có thể không thay đổi nhiều về rủi ro quyền riêng tư của thời đại AI.

Quyền riêng tư khác biệt (differential privacy), một kỹ thuật thông minh để đặt giới hạn toán học cho những gì hệ thống có thể rò rỉ về một người, cung cấp một so sánh hữu ích. Apple, Google và Microsoft đều cạnh tranh bằng công nghệ này, nhưng nó hiếm khi được sử dụng và các mối nguy hiểm về quyền riêng tư vẫn còn rất nhiều.

Binns nói rằng mặc dù nó có thể thực sự hữu ích, nhưng “trong những trường hợp khác, công ty phải làm gì đó để chứng tỏ rằng họ đang đổi mới”. Ông cho rằng machine unlearning có thể là một trường hợp tương tự, chỉ là một minh chứng cho sự nhạy bén về kỹ thuật hơn là một sự thay đổi lớn trong việc bảo vệ dữ liệu. Ngay cả khi máy móc học cách quên, người dùng sẽ phải nhớ cẩn thận với tổ chức mà họ chia sẻ dữ liệu.

https://arstechnica.com/information-technology/2021/08/now-that-machines-can-learn-can-they-unlearn/