Thế giới web chìm: phần không nhỏ của tảng băng Internet

10:00 | 07/01/2015

Hàng ngày vẫn có hàng nghìn website mới được xuất bản từ khắp nơi trên thế giới, cùng với đó là lượng thông tin khổng lồ được đăng tải, với nhiều nội dung thông tin khác nhau. Nhưng theo các chuyên gia, đó chỉ là phần “nổi” của tảng băng, còn phần “chìm” là vô số các website bị ẩn đi bởi nhiều mục đích khác nhau.

Thế giới web chìm
“Web chìm” (Deep web) là cụm từ dùng để chỉ phương tiện thể hiện các nội dung trên Internet không thuộc về “web nổi” (Surface web). Về cơ bản, những trang web dạng này không được đánh dấu chỉ mục bởi các công cụ tìm kiếm thông thường, do vậy nó không được phổ biến cho đông đảo người dùng Internet. Để truy cập vào nội dung của các trang “web chìm”, thường phải thông qua các phương tiện kỹ thuật đặc biệt (ví dụ, trình duyệt web dùng riêng như Tor, cần nhiều lớp xác thực hoặc thậm chí phải sử dụng các máy tính đặc biệt). 

Mike Bergman, nhà sáng lập BrightPlanet và là cha đẻ của thuật ngữ trên nói rằng: “Việc tìm kiếm trên Internet ngày nay có thể so sánh với việc kéo lưới trên bề mặt đại dương, phần thông tin thu được ở trên tấm lưới chỉ là bề nổi, các thông tin giá trị thì chìm ở dưới đáy và do đó bị bỏ lỡ”. Hầu hết các thông tin trên mạng bị chìm sâu ở tầng đáy, nơi mà các bộ máy tìm kiếm thông thường không thể nhìn thấy hoặc truy vấn thông tin. Do đó, chúng có thể bị coi là không tồn tại, cho đến khi được các máy tìm kiếm này tạo liên kết động trong kết quả tìm kiếm cụ thể nào đó. 

Trong nghiên cứu tại đại học California, Berkeley (Hoa Kỳ) vào những năm 2000, dựa trên ước lượng ngoại suy, dung lượng dữ liệu trên web chìm  khoảng 7.500 terabyte. Cụ thể, thế giới có khoảng 300.000 trang web chìm (năm 2004), trong đó khoảng 14.000 trang web chìm có xuất xứ từ Nga. Nếu ước tính dựa theo tỷ lệ phát triển về công nghệ, thì có thể nói dung lượng dữ liệu trong thế giới web chìm hiện nay đã lên tới con số hàng chục ngàn terabyte.


Một vài hoạt động trong thế giới web chìm
Tồn tại song song cùng thế giới ảo, những trang web chìm được ví như thế giới ngầm đầy nguy hiểm cho người dùng Internet. Web chìm là môi trường đáng sợ với những người dùng Internet, nhưng lại là “thánh đường” của giới tội phạm hoặc cá nhân có thú tiêu khiển khác thường. Những cá nhân, tổ chức này lợi dụng sự bí mật, tính nặc danh của thế giới ngầm để rao bán, kinh doanh các mặt hàng phi pháp. Thông qua các diễn đàn thảo luận về web chìm, người ta biết rằng, mặt hàng cấm như các tài liệu mật của các quốc gia, tổ chức là những hàng hóa được rao bán nhiều nhất.

Câu chuyện về Silk Road là một điển hình của web chìm. Nó được mệnh danh là “trang Amazon của ma túy”. Thông qua Bitcoin, một loại tiền ảo có thể được đổi thành tiền thật, những kẻ cung cấp ma túy có thể mở những gian hàng ảo trên Road Silk và phân phối sản phẩm của mình thông qua dịch vụ bưu chính Mỹ - U.S. Postal Service.

Tuy nhiên, Silk Road đã sụp đổ vào năm 2013. Cục Điều tra Liên bang Mỹ (FBI) đã triệt phá thành công hệ thống này và bắt giữ “thủ lĩnh” Ross William Ulbricht. Tạm thời, Ross William Ulbricht bị buộc các tội danh tổ chức mua bán ma túy, tấn công hệ thống máy tính và tổ chức rửa tiền.

Theo thống kê của Tòa án Mỹ, tính đến ngày 23/7/2013, có khoảng trên 957.000 tài khoản người dùng đã đăng ký trên Silk Road. Tổng doanh thu của Silk Road từ khi ra mắt năm 2011 cho đến ngày 23/7/2013 đạt khoảng 9,5 triệu Bitcoin (1,2 tỷ USD), trong đó, Silk Road được hưởng khoảng 614 nghìn Bitcoin (79,8 triệu USD).

Ngoài ra, có thể kể đến những ví dụ tiêu biểu khác của việc lạm dụng “web chìm” như: EuroArms - bán và cung cấp vũ khí (không có đạn) trái phép; White Wolves - cung cấp dịch vụ sát thủ; Human Experiment - cung cấp các phương pháp y tế nhằm điều khiển con người,… hay vô số các website chứa nội dung không lành mạnh.



Trong thế giới web chìm, hệ thống tên miền “.onion” được sử dụng khá phổ biến. .onion là tên miền ảo cấp cao nhất, được tạo ra bởi nhóm phát triển Tor, dành cho các dịch vụ ẩn với bên ngoài. Vì tên miền “.onion” không phải là tên miền hợp lệ trong hệ thống tên miền (DNS) Internet thông thường, nên các tên miền này chỉ có thể truy cập được khi máy tính đã kết nối vào mạng Tor. Có một điều khá đặc biệt, các website có đuôi là .onion thường không dùng các tên có nghĩa theo ngôn ngữ thông thường mà thường dùng các chuỗi ký tự khó nhớ, xuất hiện một cách gần như ngẫu nhiên, ví dụ “31156756543.onion”, “etjgjreyesbfg.onion”. Điều này làm cho các web chìm trở nên bí ẩn và khó khám phá hơn so với các website thông thường.

Trong nhiều tài liệu, web chìm còn là một thuật ngữ dùng để lôi kéo những người đam mê công nghệ vào một bước khám phá mới đầy lôi cuốn. Ở đó, những người yêu thích công nghệ như đi vào những thế giới hoàn toàn khác lạ, họ cho rằng web chìm được phân chia làm 7 tầng, tầng thứ nhất là những gì “trôi nổi” và dễ tiếp cận nhất, từ tầng thứ hai bắt đầu đi vào thế giới bí hiểm mà người muốn tham gia cần có một số kỹ năng nhất định. Nhiều người nhận định, xâm nhập từ tầng thứ tư trở đi là hết sức khó khăn và những tầng cao hơn nữa là hầu như không thể. 

Tuy nhiên, theo Mike Bergman, việc phân tầng cho thế giới web chìm chỉ là một sự “ngộ nhận chủ quan” của một số cá nhân. Ông đưa ra quan điểm cho rằng, thế giới web chỉ có thể phân thành hai dạng: “web nổi” (Surfer Web) và “web chìm” (Deep web). Trong thế giới “web chìm”, việc được phép truy cập thông tin đến đâu là do chủ đích của người tổ chức ra hệ thống đó. Dựa vào chính sách truy cập, họ sẽ có biện pháp kỹ thuật kiểm soát hợp lý đối với người dùng cuối. Mọi ứng dụng web trong thế giới World Wide Web đều phải thực thi theo những tiêu chuẩn, giao thức và kỹ thuật nhất định. Chính sách bảo mật và kiểm soát truy cập website là do người xây dựng hệ thống áp dụng, không phụ thuộc vào nội dung thông tin trên website đó. Tuy nhiên, không thể phủ nhận việc các tổ chức tội phạm càng nguy hiểm thì càng có nhiều nguồn lực tài chính và kỹ thuật để làm ra hệ thống website “hoàn hảo” phục vụ cho mục đích riêng.

Thông thường, để khám phá nội dung trên các trang web, các máy tìm kiếm (search engine) sử dụng máy dò crawler để lần theo các đường dẫn (hyperlink) thông qua các chỉ số tìm kiếm đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để khám phá các nguồn tài nguyên trên web nổi, nhưng không có tác dụng đối với web chìm. Vì vậy, các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. DeepPeep, Intute, Deep Web Technologies, và Scirus là một vài máy tìm kiếm có khả năng truy cứu vào các trang web chìm. Mô hình kiến trúc cho một máy dò web ẩn được giới thiệu vào năm 2011 bởi Sriram Raghavan và Hector Garcia-Molina, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Dựa vào đó, các máy dò web chìm được ra đời. Sau đó, các máy tìm kiếm thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. Sitemap Protocol (được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên web chìm trên các máy chủ web đặc thù. Cả hai cơ chế trên đều cho phép các máy chủ web quảng bá các đường dẫn (URL) truy cập tới chúng, bằng cách đó, nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào chỉ mục tìm kiếm các trang kết quả của Google. Kết quả hiển thị của các trang “web chìm” chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:
- Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword);
- Xác định các yếu tố đầu vào mà chỉ chấp nhận các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...);
- Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục - tìm kiếm - web.

Không phải tất cả web chìm đều “xấu”
Ranh giới giữa những gì mà các cỗ máy tìm kiếm phát hiện được và web chìm đã trở nên mờ nhạt khi các dịch vụ tìm kiếm bắt đầu cung cấp dịch vụ truy xuất tới một phần hoặc toàn bộ nội dung cấm cấp 1.

Mặc dù mặt trái của web chìm mang tới những hậu quả khôn lường, nhưng không phải khi nào nó cũng phục vụ cho những mục đích xấu. Tor với các tính năng đặc biệt của nó cũng là công cụ hữu ích hỗ trợ thế giới “sạch”. Chẳng hạn, Tor có rất nhiều ứng dụng quân sự nhằm bảo vệ thông tin liên lạc và thu thập tình báo, hay thông qua Tor, trang web WikiLeaks có thể cung cấp cho người dùng phương tiện để tải lên các tài liệu nặc danh. Dự án “Mailpile” (một ứng dụng trình khách thư điện tử dựa trên Web/Python) cũng dự định tích hợp giao thức dạng “Tor” vào quá trình trao đổi chứng thư số để đảm bảo tính riêng tư cho người dùng cuối. Tuy nhiên, web chìm có thể được lợi dụng để thu được nhiều bí quyết công nghệ, nhiều “mặt hàng” mà không bao giờ có được trong thế giới “web nổi”. “Web chìm” có xấu hay không phụ thuộc vào người dùng nó. Nếu các nhà chức trách có chế tài hợp lý, các hãng bảo mật có biện pháp tối ưu đối phó thì mặt tối của web chìm sẽ không còn cơ hội để tồn tại và phát triển.

 Tor (The Onion Router) - “Định tuyến Củ Hành”, là một hệ thống mạng riêng ảo (VPN) được thiết kế nhằm giữ bí mật về danh tính và vị trí của người dùng khi họ duyệt web. Để gia nhập vào Tor, người dùng cần sử dụng bộ trình duyệt Tor hoặc cài đặt các Proxy cho các trình duyệt thông dụng khác. Khi sử dụng trình duyệt Tor (tải về miễn phí từ TorProject), các máy chủ tình nguyện của hệ thống Internet trên khắp thế giới sẽ định tuyến để dòng dữ liệu của người dùng đi qua các máy chủ, trước khi cho đến được nơi thực sự lưu trữ nội dung trang web. Có thể hiểu đây là một cách thức “tung hỏa mù” của Internet ngầm. Hơn thế, dữ liệu truyền qua hệ thống Tor còn sử dụng kỹ thuật mã hóa để che giấu nội dung thông tin.