WebCrawler có còn tồn tại không? Quá khứ, hiện tại và tương lai của Công cụ Tìm kiếm Tiên phong

Trong đền thờ của lịch sử Internet, WebCrawler là một cái tên nổi tiếng. Ra mắt vào năm 1994, nó là một trong những công cụ tìm kiếm đầu tiên, cho phép người dùng tìm kiếm trên World Wide Web theo từ khóa tại thời điểm lướt mạng có nghĩa là duyệt các thư mục được quản lý thủ công. Tác động của WebCrawler rất nhanh chóng và đáng kể – nó nhanh chóng trở thành công cụ tìm kiếm phổ biến nhất trên web, xử lý hàng triệu lượt tìm kiếm mỗi ngày vào thời kỳ đỉnh cao. Đối với nhiều người dùng Internet ban đầu, WebCrawler là công cụ chính để tìm và khám phá nội dung trên trang web mới ra đời lúc bấy giờ.

Nhưng đó là chuyện đã gần 30 năm trước – vài kiếp trong thế giới công nghệ phát triển nhanh chóng. Kể từ những ngày đầu tiên phong đó, web đã phát triển vượt bậc và bối cảnh công cụ tìm kiếm đã thay đổi nhiều lần. Những gã khổng lồ như Google và Bing hiện đang thống trị thị trường với các thuật toán phức tạp và hàng loạt tính năng đáng kinh ngạc. Giữa tất cả những thay đổi và cạnh tranh này, điều gì đã xảy ra với WebCrawler? Liệu gã khổng lồ tìm kiếm trên web này có còn tồn tại vào năm 2023 không?

Câu trả lời ngắn gọn là có – WebCrawler vẫn tồn tại và bạn có thể truy cập ngay bây giờ tại webcrawler.com. Nhưng WebCrawler ngày nay là một con thú rất khác so với công cụ tìm kiếm đột phá của những năm 1990. Để hiểu hành trình của WebCrawler và vị trí của nó trong bối cảnh tìm kiếm hiện đại, hãy đi sâu vào lịch sử hấp dẫn của nó.

Những ngày đầu: Sự nổi lên của WebCrawler

WebCrawler được tạo ra vào năm 1994 bởi Brian Pinkerton, một sinh viên khoa học máy tính tại Đại học Washington. Vào thời điểm đó, web vẫn còn ở giai đoạn sơ khai, chỉ có vài nghìn trang web tồn tại. Cách phổ biến nhất để tìm nội dung là thông qua các thư mục web được quản lý như Yahoo!, nơi sắp xếp các trang web thành các danh mục. Các công cụ tìm kiếm đã tồn tại nhưng chúng còn nguyên thủy, chỉ lập chỉ mục các tiêu đề và URL của trang web.

Pinkerton nhìn thấy cơ hội để tạo ra một công cụ tìm kiếm mạnh mẽ hơn. Ý tưởng của ông là tạo ra một chương trình "trình thu thập thông tin" có thể tự động duyệt web, theo các liên kết từ trang này sang trang khác và lập chỉ mục toàn bộ văn bản của mỗi trang mà nó tìm thấy. Điều này sẽ cho phép người dùng tìm kiếm không chỉ tiêu đề trang mà cả nội dung thực tế của các trang web, mở rộng đáng kể lượng thông tin có thể tìm kiếm được.

WebCrawler ra mắt vào ngày 20 tháng 1994 năm 1994, chạy trên một máy tính duy nhất dưới bàn làm việc của Pinkerton. Bất chấp nguồn gốc khiêm tốn này, nó đã nhanh chóng thu hút được sự chú ý. Vào tháng 1 năm 1995, WebCrawler đã thực hiện truy vấn thứ 1 triệu. Đến cuối năm XNUMX, nó đã phục vụ hơn XNUMX triệu truy vấn mỗi ngày, trở thành công cụ tìm kiếm phổ biến nhất trên web.

Một số yếu tố góp phần vào sự phát triển nhanh chóng của WebCrawler:

Tìm kiếm toàn văn bản: Khả năng tìm kiếm toàn bộ văn bản của trang web của WebCrawler là một nhân tố thay đổi cuộc chơi. Đột nhiên, người dùng có thể tìm thấy các trang dựa trên bất kỳ từ hoặc cụm từ nào, không chỉ siêu dữ liệu hạn chế được cung cấp bởi các thư mục. Điều này làm cho việc tìm kiếm trên web trở nên hữu ích và mạnh mẽ hơn nhiều.
Tốc độ: Mặc dù chạy trên một máy duy nhất nhưng WebCrawler vẫn rất nhanh. Pinkerton đã tối ưu hóa trình thu thập thông tin của mình để lập chỉ mục các trang một cách hiệu quả và thuật toán tìm kiếm của mình nhằm nhanh chóng trả về các kết quả có liên quan. Vào thời điểm mà các trang web có thể mất vài phút để tải, tốc độ của WebCrawler là một lợi thế đáng kể.
Bảo hiểm: WebCrawler không phải là công cụ tìm kiếm duy nhất nhưng nó lập chỉ mục nhiều trang web hơn các đối thủ cạnh tranh. Đến cuối năm 1995, WebCrawler đã lập chỉ mục hơn 4 triệu trang web – một phần đáng kể của toàn bộ trang web vào thời điểm đó. Mức độ bao phủ toàn diện hơn có nghĩa là kết quả phù hợp hơn cho người dùng.
Đối tác: WebCrawler hợp tác với các cổng web có lưu lượng truy cập cao như Excite và Netscape, hỗ trợ chức năng tìm kiếm của họ. Điều này đã mang lại cho WebCrawler sự tiếp cận rộng rãi và giúp thúc đẩy sự phát triển của nó.

Vào giữa những năm 1990, WebCrawler đã khẳng định mình là công cụ tìm kiếm hàng đầu và vị trí này sẽ giữ được trong vài năm. Nó đang xử lý hàng triệu lượt tìm kiếm mỗi ngày và tiếp tục đổi mới, tung ra các tính năng như tìm kiếm hình ảnh và công cụ tìm kiếm theo danh mục cụ thể cho các chủ đề như tin tức và du lịch.

Nhưng ngay cả khi WebCrawler thống trị lĩnh vực tìm kiếm trên web thì những hạt giống của sự biến động vẫn đang được gieo trồng. Một làn sóng công cụ tìm kiếm mới xuất hiện vào cuối những năm 1990, mỗi công cụ đều mang đến những công nghệ và cách tiếp cận mới. Một số, như Excite và Lycos, đi theo mô hình dựa trên trình thu thập thông tin tương tự như WebCrawler. Nhưng những người khác, như Yahoo! và Altavista, theo đuổi một con đường khác, sử dụng sự quản lý của con người và các ngôn ngữ truy vấn phức tạp hơn. Và sau đó là Google, được thành lập vào năm 1998 với cách tiếp cận hoàn toàn mới để tìm kiếm dựa trên phân tích liên kết và giao diện người dùng tối giản.

Kỷ nguyên cạnh tranh: Sự suy tàn của WebCrawler

Khi web tiếp tục phát triển bùng nổ vào cuối những năm 1990 và đầu những năm 2000, thị trường công cụ tìm kiếm trở nên cạnh tranh khốc liệt. WebCrawler, từng là người dẫn đầu không thể tranh cãi, nhận thấy mình đang phải vật lộn để theo kịp dòng đổi mới liên tục và sự gia tăng nhanh chóng của các đối thủ được tài trợ tốt.

Một số yếu tố góp phần vào sự suy giảm của WebCrawler trong giai đoạn này:

Mua lại và bỏ bê: Năm 1995, WebCrawler được America Online (AOL), một trong những nhà cung cấp dịch vụ internet lớn nhất vào thời điểm đó, mua lại. AOL coi tìm kiếm là một lĩnh vực chiến lược và muốn sở hữu một công cụ tìm kiếm hàng đầu. Tuy nhiên, dưới quyền sở hữu của AOL, WebCrawler đã suy yếu. Nó nhận được ít cập nhật và mất vị trí trước các đối thủ cạnh tranh về quy mô chỉ mục và chất lượng tìm kiếm.
Sự trỗi dậy của các cổng thông tin: Vào cuối những năm 1990, các cổng web như Yahoo!, Excite và Lycos đã trở thành điểm khởi đầu thống trị của người dùng internet. Những trang web này không chỉ cung cấp tính năng tìm kiếm mà còn cung cấp tin tức, email, thời tiết và các dịch vụ khác. Bằng cách tận dụng mức độ phổ biến của chúng, các cổng có thể thu hút lưu lượng truy cập lớn đến các công cụ tìm kiếm của riêng họ, chiếm lấy thị phần từ các nhà cung cấp dịch vụ tìm kiếm độc lập như WebCrawler.
Sự đi lên của Google: Sự ra mắt của Google vào năm 1998 đã đánh dấu một sự thay đổi lớn trong lĩnh vực tìm kiếm trên web. Thuật toán PageRank của Google, phân tích cấu trúc liên kết của trang web để xác định các trang quan trọng nhất, đã được chứng minh là một bước đột phá về mức độ liên quan của tìm kiếm. Kết hợp với giao diện nhanh, tối giản, Google nhanh chóng nổi tiếng về việc cung cấp kết quả tìm kiếm tốt nhất. Khi tin đồn được lan truyền, Google bắt đầu chiếm lĩnh thị phần của những công ty đã thành danh như WebCrawler.
Thiếu đổi mới: Khi sự cạnh tranh ngày càng gay gắt, sự đổi mới trở nên quan trọng để các công cụ tìm kiếm duy trì lợi thế của mình. Thật không may, WebCrawler đã tụt lại phía sau về mặt này. Trong khi Google và những công ty khác liên tục điều chỉnh thuật toán của họ và bổ sung các tính năng mới thì WebCrawler vẫn tương đối trì trệ, có ít cập nhật hoặc cải tiến lớn.

Vào đầu những năm 2000, WebCrawler đã tụt xa khỏi vị trí thống trị trước đây. Thị phần của nó đã giảm xuống còn một con số và nó không còn được coi là điểm đến tìm kiếm hàng đầu nữa. Năm 2001, AOL bán WebCrawler cho InfoSpace, một công ty tổng hợp kết quả tìm kiếm từ nhiều công cụ. Dưới thời InfoSpace, WebCrawler về cơ bản đã trở thành một công cụ tìm kiếm meta, với các kết quả được lấy từ các nhà cung cấp khác.

Trong thập kỷ rưỡi tiếp theo, WebCrawler tiếp tục hoạt động nhưng với công suất ngày càng giảm. Nó lại đổi chủ vào năm 2016, được mua lại bởi công ty quảng cáo web System1. Mặc dù System1 đã làm mới hình ảnh của WebCrawler vào năm 2018 nhưng sản phẩm cơ bản vẫn có ít thay đổi – giao diện tìm kiếm cơ bản được cung cấp bởi các kết quả từ chương trình đối tác tìm kiếm tổng hợp của Google và Bing.

WebCrawler ngày nay: Người chơi thích hợp hay vinh quang mờ nhạt?

Vì vậy, điều đó đưa chúng ta đến ngày hôm nay. WebCrawler vẫn tồn tại như một công cụ tìm kiếm đang hoạt động nhưng nó chỉ là cái bóng của chính nó trước đây. Theo công ty phân tích lưu lượng truy cập SameWeb, WebCrawler hiện nhận được khoảng 240,000 khách truy cập mỗi tháng. Điều đó không phải là không có gì - nhưng nó khác xa so với hàng triệu tìm kiếm hàng ngày mà WebCrawler xử lý ở thời kỳ đỉnh cao và nó chiếm một phần rất nhỏ trong số hàng tỷ tìm kiếm được thực hiện mỗi tháng trên các công ty dẫn đầu thị trường như Google và Bing.

Truy cập WebCrawler ngày nay giống như bước vào một viên nang thời gian. Thiết kế của trang web rõ ràng và đầy đủ chức năng nhưng lỗi thời, với hộp tìm kiếm đơn giản, một số tùy chọn lọc và một số tùy chọn khác. Không có đề xuất tự động trong hộp tìm kiếm, không có bảng kiến thức hoặc đoạn mã chi tiết trong kết quả. Quảng cáo có sức lan tỏa rộng rãi, với nhiều kết quả được tài trợ và nhiều đơn vị hiển thị trên mỗi trang. Nó có cảm giác rất giống tàn tích của một kỷ nguyên tìm kiếm trên web đơn giản hơn trước đó.

Về cơ bản, WebCrawler không còn thực sự thu thập dữ liệu trên web nữa. Thay vào đó, kết quả của nó được cung cấp thông qua các hợp đồng cung cấp với Google và Bing. Về cơ bản, khi bạn thực hiện tìm kiếm trên WebCrawler, bạn sẽ thấy một tập hợp con các kết quả từ chỉ mục của Google và Bing, được lọc và sắp xếp lại theo thuật toán riêng của WebCrawler. Trong hầu hết các trường hợp, kết quả đều có thể sử dụng được – nhìn chung bạn có thể tìm thấy những gì mình đang tìm kiếm. Tuy nhiên, trải nghiệm này giống như một phiên bản rút gọn, chứa nhiều quảng cáo khi tìm kiếm trực tiếp trên Google hoặc Bing.

Vậy ngày nay ai sử dụng WebCrawler và tại sao? Đó là một chút bí ẩn. Trang web này dường như không phục vụ bất kỳ vị trí thích hợp hoặc trường hợp sử dụng cụ thể nào mà các công cụ tìm kiếm chính không đáp ứng tốt hơn. Một số người dùng có thể bị thu hút bởi giao diện đơn giản, không rườm rà của WebCrawler. Trang web nhấn mạnh đến quyền riêng tư, tuyên bố rằng nó không theo dõi hoặc lập hồ sơ người dùng. Nhưng điều tương tự cũng đúng với DuckDuckGo, ứng dụng mang lại trải nghiệm tìm kiếm tập trung vào quyền riêng tư phức tạp hơn.

Có thể một số lưu lượng truy cập của WebCrawler đến từ những người dùng chưa thay đổi thói quen của họ. Nếu bạn học cách sử dụng web vào giữa những năm 1990, WebCrawler có thể là công cụ tìm kiếm đầu tiên của bạn. Đối với một nhóm nhỏ những người dùng đó, WebCrawler có thể là lựa chọn thoải mái, quen thuộc, ngay cả khi nó không còn là công cụ tốt nhất cho công việc.

Tuy nhiên, có nhiều khả năng hơn là phần lớn mức sử dụng hiện tại của WebCrawler là do quyền sở hữu của nó. System1 là một công ty công nghệ quảng cáo chuyên đặt quảng cáo trên các công cụ tìm kiếm và các sản phẩm kỹ thuật số khác. Việc sở hữu WebCrawler cung cấp cho System1 một nền tảng cố định để phân phát quảng cáo tìm kiếm. Mỗi tìm kiếm được thực hiện trên WebCrawler là cơ hội để System1 hiển thị kết quả phải trả tiền và tạo doanh thu. Trong bối cảnh này, sự hài lòng thực tế của người dùng và chất lượng tìm kiếm có thể là mối quan tâm thứ yếu so với việc chỉ đơn thuần thúc đẩy lưu lượng truy cập và số lần hiển thị quảng cáo.

Nhìn về phía trước, thật khó để hình dung một tương lai nơi WebCrawler có thể phục hồi bất kỳ hình thức nào. Thị trường tìm kiếm ngày nay hoàn toàn bị thống trị bởi Google, với Bing ở vị trí thứ hai. Có rất ít chỗ hoặc sự hấp dẫn đối với những người mới tham gia, đồng thời chi phí và sự phức tạp của việc xây dựng và duy trì chỉ mục web cạnh tranh là rất lớn. Đặt cược tốt nhất của WebCrawler để tiếp tục có mức độ liên quan có thể là tập trung vào vị trí thích hợp của nó như một giải pháp thay thế tập trung vào quyền riêng tư, hỗ trợ quảng cáo cho những người tìm kiếm thích trải nghiệm đơn giản. Nhưng nếu không có sự đầu tư và đổi mới đáng kể, thật khó để thấy WebCrawler có được sức hút đáng kể.

Di sản của WebCrawler

Bất chấp hoàn cảnh ngày nay đã giảm sút, sẽ là sai lầm nếu coi WebCrawler chỉ là một chú thích cuối trang trong lịch sử Internet. Tác động và ảnh hưởng của nó trong những ngày đầu của web rất sâu sắc và sâu rộng.

Là một trong những công cụ tìm kiếm toàn văn bản đầu tiên, WebCrawler đóng vai trò then chốt trong việc chuyển đổi trang web từ một tập hợp vô tổ chức gồm các trang khó tìm thành một tài nguyên có thể điều hướng và tìm kiếm được. Nó đã giới thiệu cho hàng triệu người dùng web ban đầu về sức mạnh và khả năng tìm kiếm từ khóa, đặt ra kỳ vọng về cách sử dụng và khám phá trang web. Theo nhiều cách, WebCrawler đã giúp hình thành ý tưởng về tìm kiếm trên web như chúng ta biết ngày nay.

Di sản của WebCrawler cũng có thể được nhìn thấy trong nhiều công cụ tìm kiếm và các công ty web theo bước nó. Nhiều nhân vật chủ chốt liên quan đến sự phát triển và thành công ban đầu của WebCrawler đã tiếp tục đóng những vai trò có ảnh hưởng trong ngành internet. Người sáng lập Brian Pinkerton trở thành Kiến trúc sư trưởng tại Excite và sau đó là AOL. Những nhân viên đầu tiên của WebCrawler đã đảm nhận những vai trò cấp cao tại các công ty như Microsoft, Amazon và vâng, Google.

Có lẽ đáng kể nhất, sự gia tăng nhanh chóng và cuối cùng là sự sụp đổ của WebCrawler đóng vai trò là một trường hợp nghiên cứu điển hình về tính chất năng động, chuyển động nhanh chóng của hoạt động kinh doanh trên Internet. Chỉ trong vòng vài năm ngắn ngủi, WebCrawler đã đi từ một dự án phòng ký túc xá trở thành điểm đến phổ biến nhất trên web rồi trở thành một dự án cũng đang gặp khó khăn. Câu chuyện của nó là lời nhắc nhở về bối cảnh kỹ thuật số có thể thay đổi nhanh chóng như thế nào và ngay cả những công ty thành công và sáng tạo nhất cũng có thể bị phá vỡ bởi các công nghệ và đối thủ cạnh tranh mới.

Cuối cùng, di sản của WebCrawler là một trong những sự đổi mới tiên phong, sự phát triển nhanh chóng và cuối cùng là sự lu mờ. Đó là một câu chuyện đã lặp đi lặp lại trong lịch sử Internet, với những công ty thống trị một thời như AOL, Yahoo! và MySpace nhường chỗ cho những công ty mới nổi như Google, Facebook và Twitter. Đó là minh chứng cho chu kỳ hủy diệt sáng tạo không ngừng của web và là lời nhắc nhở rằng không có vị trí thống trị nào thực sự an toàn.

Vì vậy, mặc dù WebCrawler có thể không còn là người chơi chính trong thế giới tìm kiếm trên web nhưng vị trí của nó trong lịch sử Internet vẫn được đảm bảo. Là một trong những công cụ tìm kiếm đầu tiên và có ảnh hưởng nhất, nó đã giúp vạch ra lộ trình về cách chúng ta tìm và khám phá thông tin trực tuyến. Và mặc dù trang web ngày nay đã khác rất nhiều so với năm 1994, nhưng nhu cầu cơ bản mà WebCrawler lần đầu tiên phục vụ – mong muốn hiểu được kho thông tin khổng lồ của web – vẫn quan trọng hơn bao giờ hết.

Những ngày đầu: Sự nổi lên của WebCrawler

Kỷ nguyên cạnh tranh: Sự suy tàn của WebCrawler

WebCrawler ngày nay: Người chơi thích hợp hay vinh quang mờ nhạt?

Di sản của WebCrawler

Tham gia vào cuộc đối thoại Hủy bỏ trả lời

WebCrawler có còn tồn tại không? Quá khứ, hiện tại và tương lai của công cụ tìm kiếm tiên phong

Những ngày đầu: Sự nổi lên của WebCrawler

Kỷ nguyên cạnh tranh: Sự suy tàn của WebCrawler

WebCrawler ngày nay: Người chơi thích hợp hay vinh quang mờ nhạt?

Di sản của WebCrawler

Tham gia vào cuộc đối thoại Hủy bỏ trả lời

bài viết liên quan

Cách sử dụng Bộ chọn XPath để quét web trong Python

Cách chọn phần tử theo văn bản trong XPath

Cách chọn các phần tử theo lớp trong XPath: Hướng dẫn cơ bản