Bảo mật dữ liệu đã trở thành một trong những vấn đề nổi bật nhất của thế giới trong những năm cuối thập kỷ này. Các quốc gia và công ty trên toàn cầu đang phân tích dữ liệu của hàng tỷ người dùng, điều này dẫn đến chuỗi dường như vô tận về các vụ việc liên quan đến hack hoặc vi phạm dữ liệu.
Kể từ những ngày đầu tiên của cuộc tổng điều tra dân số Hoa Kỳ năm 1790, các nhà khoa học đã tìm kiếm các cách để nghiên cứu các kho dữ liệu trong khi bảo vệ danh tính của những người đứng sau các con số.
Năm 2006, các nhà nghiên cứu từng đoạt giải thưởng Cynthia Dwork, Frank McSherry, Kobbi Nissim và Adam D. Smith đã đưa ra ý tưởng về quyền riêng tư khác biệt (differential privacy) với thế giới, đặt ra nhiều thập kỷ nghiên cứu sẽ dẫn đến thư viện differential privacy mới được phát hành mở của Google.
Sử dụng thư viện nguồn mở, các nhà phát triển sẽ có thể thực hiện các chức năng thống kê phổ biến như tổng, trung bình và "các chức năng khác như cơ chế bổ sung, chức năng tổng hợp hoặc quản lý ngân sách riêng tư".
Các chuyên gia thậm chí đã đóng góp vào thư viện một nghiên cứu lâu dài về công việc đảm bảo quyền riêng tư, một cách để kiểm tra lỗi và một phần mở rộng cho PostgreQuery với các cách xử lý phổ biến để giúp làm quen với việc sử dụng thư viện differential privacy.
"Phân tích dữ liệu riêng tư là một cách tiếp cận có nguyên tắc cho phép các tổ chức học hỏi từ phần lớn dữ liệu của họ đồng thời đảm bảo rằng các kết quả đó không cho phép bất kỳ dữ liệu cá nhân nào có thể được phân biệt hoặc tái xác định chủ thể của dữ liệu", Miguel Guevara, Giám đốc sản phẩm bảo vệ dữ liệu và quyền riêng tư của Google, cho biết.
Cuối cùng, mục tiêu của quyền riêng tư khác biệt là cung cấp tính ẩn danh trong khi duy trì quyền truy cập vào các thông tin hữu ích. Google cho biết quyền riêng tư khác biệt "cung cấp đảm bảo chính thức rằng đầu ra của truy vấn cơ sở dữ liệu không tiết lộ quá nhiều thông tin về bất kỳ cá nhân nào có trong cơ sở dữ liệu".
Nó ngẫu nhiên hóa các phần của thông tin theo cách có thể làm cho vi phạm an ninh mạng ít gây tổn hại hơn.
Vào năm 2014, các chuyên gia đã sử dụng quyền riêng tư khác biệt để cải thiện trình duyệt Chrome và sau đó đã nâng cấp Google Fi. Hàng chục công ty bao gồm Apple và Uber sử dụng các phiên bản differential privacy để tối ưu hóa dịch vụ của họ trong khi vẫn bảo vệ dữ liệu của người dùng.
Sau hơn một thập kỷ sử dụng differential privacy trong các doanh nghiệp của mình, Google đã quyết định tạo ra một công cụ dễ dàng để giúp các nhà phát triển kết hợp thư viện với dữ liệu của riêng họ.
"OK vậy tại sao tôi lại rất hào hứng với bản mã nguồn mở mới phát hành này? Rất nhiều lý do. Đầu tiên, mã của nó giống như mã mà chúng tôi sử dụng trong nội bộ (Google). Nó cung cấp các công cụ quy mô lớn và các trường hợp sử dụng chính", kỹ sư chuyên về quyền riêng tư của Google Damien Desfontaines viết trên Twitter.
"Điều đó cũng có nghĩa là chúng tôi có tiêu chuẩn cao về chất lượng mã nguồn, kiểm thử, khả năng mở rộng, khả năng chịu lỗi. Các phương thức được phát triển bên trong (thư viện) khá đơn giản. Chúng tôi không đưa ra các thuật toán mới siêu lạ mắt. Chúng tôi chủ yếu kết hợp những kiến thức từ trước tới nay theo một cách tốt đẹp. Điều này cho thấy differential privacy nên được tiếp cận & sử dụng bởi bất kỳ ai, với các công cụ phù hợp ", Desfontaines viết.
Desfontaines nói thêm rằng không có nhiều tài nguyên cho các tổ chức hoặc nhà phát triển muốn sử dụng differential privacy với dữ liệu của họ. Google hy vọng phiên bản thư viện differential privacy mã nguồn mở với các sản phẩm cốt lõi của họ đang sử dụng sẽ có ích và họ ưu tiên tính dễ sử dụng khi tạo ra nó.
Trong bài viết kỹ thuật chi tiết được phát hành vào ngày 5/9/2019, Desfontaines, Royce Wilson, Celia Zhang, William Lam, Daniel Simmons-Marengo và Bryant Gipson giải thích về toán học và cách nghĩ đằng sau thư viện của họ. Phân tích dữ liệu cá nhân rất phức tạp và dễ bị làm sai cách nên Google hy vọng công cụ của họ sẽ giúp đơn giản hóa quy trình.
"Bằng cách sử dụng differential privacy khi phân tích dữ liệu, các tổ chức có thể giảm thiểu rủi ro tiết lộ thông tin nhạy cảm về người dùng. Bằng cách phát hành các thành phần trong cấu hình hệ thống của chúng tôi dưới dạng phần mềm mã nguồn mở sau khi đã xác nhận khả năng ứng dụng của nó đối với các trường hợp sử dụng nội bộ, chúng tôi hy vọng sẽ khuyến khích TC/DN áp dụng thêm vào việc nghiên cứu về phương pháp phân tích này", các nhà nghiên cứu của Google đã viết trong báo cáo.
"Các thuật toán được trình bày trong (thư viện) này tương đối đơn giản, nhưng bằng chứng thực nghiệm cho thấy phương pháp này hữu ích, mạnh mẽ và có thể mở rộng. Nhiều dịch vụ thu thập dữ liệu nhạy cảm của các cá nhân. Các dịch vụ này phải cân bằng các khả năng được cung cấp bằng cách phân tích, chia sẻ hoặc xuất bản dữ liệu này với trách nhiệm bảo vệ sự riêng tư của các cá nhân có trong dữ liệu của họ".
Trong thông báo của Google về thư viện nguồn mở, Guevara cho biết công cụ này sẽ hữu ích cho các doanh nghiệp nhỏ, các nhà phát triển phần mềm và nhà nghiên cứu chăm sóc sức khỏe cần dữ liệu cá nhân phức tạp để thực hiện các thay đổi và cải tiến.
Các TC/DN phải tận dụng mọi cơ hội để cải thiện số liệu trong khi vẫn bảo vệ mạnh mẽ quyền riêng tư, nếu không thực hiện được điều đó thì nguy cơ mất niềm tin của "công dân, khách hàng và người dùng" là rất lớn, Guevara nói. Theo Google, mục tiêu tổng thể của thư viện mã nguồn mở differential privacy là cung cấp cho người dùng tính ẩn danh mà họ xứng đáng được hưởng.
"Trọng tâm chính của bài viết là giải thích cách bảo vệ *người dùng* với differential privacy, chứ không phải các hồ sơ riêng lẻ. Rất nhiều tài liệu hiện có cho rằng mỗi người dùng chỉ liên kết với một bản ghi. Điều này ít khi đúng trong thực tiễn," Desfontaines bày tỏ trên Twitter.
Thông tin kỹ thuật số rất khác so với số liệu thống kê dân số hoặc các loại dữ liệu khác vì một người dùng thường được tính nhiều lần. Các nhân viên của Google, Lea Kissner và Gipson, nói rằng công cụ của họ là sáng tạo vì nó cho phép mọi người thêm dữ liệu vào một tập nhiều lần.
Google đã ưu tiên các công cụ bảo mật trong năm nay, phát hành các công cụ như TensorFlow Privacy, TensorFlow Federated hay Private Join and Compute. Desfontaines và những người khác tham gia vào quá trình này cho biết công cụ này sẽ chỉ cải thiện khi nhiều người sử dụng nó trên nhiều tập dữ liệu khác nhau. "Điều tôi cảm thấy thú vị nhất không phải là những gì hiện có, mà là điều tôi hy vọng sẽ đến tiếp theo!" Desfontaines viết.