Cách crawl dữ liệu trang web bằng Selenium

Cach crawl du lieu trang web bang Selenium, Cách crawl dữ liệu trang web bằng Selenium

Crawl sửa lỗi các dữ liệu trang web cập nhật khá hữu ích tải về để tự động hóa ở đâu tốt các tác vụ nhất định ở đâu uy tín được thực hiện thường xuyên trên vô hiệu hóa các trang web cập nhật . kỹ thuật Ngoài ra bạn thanh toán có thể viết một trình crawl tăng tốc để tương tác xóa tài khoản với trang web giống như con người cài đặt . Bài viết khóa chặn dưới đây Chúng tôi qua mạng sẽ hướng dẫn bạn cách crawl dữ liệu trang web bằng Selenium.

Tự động hóa Google Chrome liên quan đến việc sử dụng công cụ Selenium cài đặt , là một thành phần phần mềm nằm giữa chương trình thanh toán và trình duyệt qua mạng của bạn chia sẻ . Dưới đây là cách crawl dữ liệu trang web bằng Selenium hay nhất để tự động hóa Google Chrome.

Cách crawl dữ liệu trang web bằng Selenium

Thiết lập Selenium

Web Driver

Như tự động đã đề cập ở trên tất toán , Selenium quảng cáo bao gồm thành phần phần mềm chạy dưới dạng process tổng hợp riêng biệt qua app , kích hoạt và thực hiện giả mạo các hành động thay chi tiết các chương trình java quảng cáo . Thành phần này khóa chặn được gọi là Web Driver cài đặt và phải trên điện thoại được tải xuống máy tính tổng hợp của bạn.

Truy cập tại đây tất toán để tải phiên bản Selenium mới nhất ở đâu nhanh , phù hợp cài đặt với hệ điều hành trên máy tính hỗ trợ của bạn (Windows ở đâu uy tín , Linux thanh toán hoặc macOS) hay nhất . Giải nén file ZIP trong vị trí phù hợp hỗ trợ , chẳng hạn như C:WebDriverschromedriver.exe trực tuyến . Bạn dữ liệu sẽ phải sử dụng vị trí này trong chương trình java.

Module Java

Bước miễn phí tiếp theo là thiết lập đăng ký vay các module java cần thiết bản quyền để sử dụng Selenium dữ liệu . Giả sử bạn đang sử dụng Maven danh sách để xây dựng chương trình java nguyên nhân , thêm tổng hợp các phụ thuộc vào POM.xml:

dependencies >dependency>groupId>org.seleniumhq.selenium/groupId >artifactId>selenium-java/artifactId >version >3.8.1/version >/dependencies >

Để chạy dịch vụ các process xóa tài khoản , tải về tất cả an toàn các module yêu cầu phải đăng ký vay được tải xuống tính năng và cài đặt trên máy tính quảng cáo của bạn.

Đầu tiên thiết lập Selenium

Bắt đầu kiểm tra với Selenium thanh toán . Bước đầu tiên là tạo ChromeDriver:

WebDriver driver = new ChromeDriver();

kích hoạt Trên màn hình chia sẻ sẽ hiển thị cửa sổ Google Chrome mới tải về . Điều hướng đến trang tìm kiếm tối ưu của Google:

driver.get("http://www.google.com");

Tham chiếu đến giá rẻ các yếu tố đầu vào văn bản chi tiết để thực hiện tìm kiếm chi tiết . Phần tử văn bản có tên là q dịch vụ . Định vị quản lý các phần tử HTML trên trang bằng cách sử dụng phương thức (method) WebDriver.findElement().

WebElement element = driver.findElement(By.name("q"));

Bạn chia sẻ có thể gửi văn bản đến bất kỳ phần tử nào khác bằng phương thức sendKeys () lấy liền . Thử gửi bằng một cụm từ tìm kiếm tốc độ và kết thúc bằng một dòng mới như thế nào để bắt đầu tìm kiếm ngay lập tức:

element.sendKeys("terminator ");

Lúc này việc tìm kiếm đang giảm giá được tiếng hành tốt nhất , bạn chỉ cần chờ trang kết quả tất toán . Để làm ở đâu tốt được điều này:

new WebDriverWait(driver qua mạng , 10)

.until(d -> d.getTitle().toLowerCase().startsWith("terminator"));

Về cơ bản đoạn code trên nói hay nhất với Selenium chờ 10 giây tổng hợp và trở lại khi tiêu đề trang bắt đầu chia sẻ với terminator qua app . Sử dụng hàm lambda miễn phí để xác định điều kiện nạp tiền để chờ.

Lúc này bạn trực tuyến đã có chi tiết được tiêu đề khóa chặn của trang.

System.out.println("Title: " + driver.getTitle());

Sau khi hoàn tất dịch vụ với phiên là việc miễn phí , đóng cửa sổ trình duyệt lại:

driver.quit();

Folks là phiên trình duyệt đơn giản chia sẻ được kiểm soát bằng cách sử dụng java thông qua Selenium lấy liền . Mặc tổng hợp nơi nào khá đơn giản như thế nào nhưng nó cho phép bạn lập trình công cụ rất nhiều thứ xóa tài khoản mà bạn thường phải làm bằng tay.

Sử dụng Google Chrome Inspector

Google Chrome Inspector là công cụ vô giá qua web để xác định danh sách các phần tử địa chỉ được sử dụng giá rẻ với Selenium giá rẻ . Công cụ này cho phép bạn nhắm đến danh sách các phần tử chính xác từ java sử dụng để trích xuất thông tin tăng tốc cũng như tất toán để thực hiện qua mạng các hành động tương tác như click vào nút qua mạng . Dưới đây là cách sử dụng Inspector.

Mở Google Chrome tất toán và điều hướng đến một trang mới đăng ký vay , giả sử trang IMDB xếp hạng phim Justice League (2017).

Kích chuột phải vào phần tóm tắt trailer tối ưu , chọn Inspect trên menu.

Cách crawl dữ liệu trang web bằng Selenium

Từ tab Elements tải về , bạn có thẻ thấy văn bản tóm tắt là một div kỹ thuật với lớp summary_text.

Cách crawl dữ liệu trang web bằng Selenium

Sử dụng CSS trên điện thoại hoặc XPath

Selenium hỗ trợ chọn hay nhất các phần tử từ trang sử dụng CSS qua app . (CSS hỗ trợ phương ngữ là CSS2) hướng dẫn . Ví dụ link down để chọn văn bản tóm tắt từ trang IMDB ở trên cập nhật , bạn viết:

WebElement summaryEl = driver.findElement(By.cssSelector("div.summary_text"));

full crack Ngoài ra bạn giá rẻ cũng cài đặt có thể sử dụng Xpath qua mạng để chọn hỗ trợ các phần tử theo cách giống nhau link down . Để chọn văn bản tóm tắt:

WebElement summaryEl = driver.findElement(By.xpath("https://div[@]"));

XPath tốt nhất và CSS có xóa tài khoản các tính năng tương tự nên bạn nhanh nhất có thể lựa chọn một trong hai miễn phí để sử dụng.

Đọc Google Mail từ Java

Dưới đây là ví dụ phức tạp hơn: tìm nạp Google Mail.

Khởi động Chrome Driver đăng ký vay , điều hướng đến gmail.com cài đặt và chờ cho đến khi trang nhanh nhất được tải:

WebDriver driver = new ChromeDriver();

driver.get("https://gmail.com");

new WebDriverWait(driver ở đâu uy tín , 10)

.until(d -> d.getTitle().toLowerCase().startsWith("gmail"));

Tiếp theo tìm khung email (tên khóa chặn được đặt bằng ID nhận dạng) qua mạng và nhập địa chỉ email tốc độ . Click chọn nút Next giả mạo và chờ tải trang nhập mật khẩu.

/* Type in username/email */

{

driver.findElement(By.cssSelector("#identifierId")).sendKeys(email);

driver.findElement(By.cssSelector(".RveJvd")).click();

}

new WebDriverWait(driver đăng ký vay , 10)

.until(d -> ! d.findElements(By.xpath("https://div[@]")).isEmpty() );

Now tất toán , we enter the password giá rẻ , click the Next button again and wait for the Gmail page to load.

/* Type in password */

{

driver

.findElement(By.xpath("https://div[@]//input[@type="password"]"))

.sendKeys(password);

driver.findElement(By.cssSelector(".RveJvd")).click();

}

new WebDriverWait(driver download , 10)

.until(d -> ! d.findElements(By.xpath("https://div[@]")).isEmpty() );

Tìm nạp danh sách trực tuyến các hàng email tốt nhất và lặp lại mỗi mục.

List rows = driver

.findElements(By.xpath("https://div[@]//table/tbody/tr"));

for (WebElement tr : rows) {

}

Với mỗi mục nhập hỗ trợ , tìm nạp khung From hướng dẫn . Lưu ý một số mục From tất toán có thể có nhiều phần tử danh sách , tùy thuộc vào số lượng người trong cuộc hội thoại.

{

/* From Element */

System.out.println("From: ");

for (WebElement e : tr

.findElements(By.xpath(".//div[@]/*"))) {

System.out.println(" " +

e.getAttribute("email") + " nạp tiền , " +

e.getAttribute("name") + " tăng tốc , " +

e.getText());

}

}

Tiếp theo tìm nạp đối tượng.

{

/* Subject */

System.out.println("Sub: " + tr.findElement(By.xpath(".//div[@]")).getText());

}

And the date and time of the message.

{

/* Date/Time */

WebElement dt = tr.findElement(By.xpath("./td[8]/*"));

System.out.println("Date: " + dt.getAttribute("title") + " nơi nào , " +

dt.getText());

}

Dưới đây là tổng số hàng email trên trang.

System.out.println(rows.size() + " mails.");

Sau khi hoàn tất cập nhật , đóng cửa sổ trình duyệt lại.

driver.quit();

https://thuthuat.taimienphi.vn/cach-crawl-du-lieu-trang-web-bang-selenium-30079n.aspx
cài đặt Trên đây là cách crawl dữ liệu trang web bằng Selenium link down với Google Chrome link down . Với Google Chrome Inspector miễn phí , bạn dữ liệu có thể dễ dàng tìm ra CSS quản lý hoặc XPath bản quyền để trích xuất ở đâu nhanh hoặc tương tác an toàn với phần tử.

4.9/5 (80 votes)

Ý kiến khách hàngPreNext
Có thể bạn quan tâm?

Bạn muốn vay tiền? - Click xem Vay tiền Online