htmlunit 예제

첫 번째 샘플에서는 웹 클라이언트를 만들고 HtmlUnit 웹 사이트에서 홈페이지를 로드합니다. 그런 다음 이 페이지에 올바른 제목이 있는지 확인합니다. getPage()는 반환된 데이터의 콘텐츠 유형에 따라 다른 유형의 페이지를 반환할 수 있습니다. 이 경우 텍스트/html의 콘텐츠 유형을 예상하므로 com.gargoylesoftware.htmlunit.htmlPage에 결과를 캐스팅합니다. 다음은 ID로 `div`를 찾고 이름으로 앵커를 얻는 예제입니다: HtmlUnit을 사용하는 첫 번째 단계는 Maven 기반 프로젝트를 만들고 POM 파일의 종속성 섹션에 적절한 GAV를 추가하는 것입니다. 다음은 종속성에 포함된 HtmlUnit GAV가 포함된 전체 Maven POM 파일의 예입니다. 양식의 값을 변경하고 양식을 서버에 다시 제출하려는 경우가 자주 있습니다. 다음 예제에서는 이 작업을 수행하는 방법을 보여 주며 있습니다. 예를 들어, 우리는 해커 뉴스에서 항목을 수집하려고합니다.

그들은 좋은 API를 제공하지만, 그들이하지 않는 척하자. Pingback : 내 안드로이드 프로젝트와 htmlunit을 사용하는 방법 : 안드로이드 커뮤니티 – 응용 프로그램 개발을 위해 이전 예제에서, 우리는 구문 분석되는 웹 페이지의 제목을 캡처하여 우리의 자바 화면 스크레이퍼 기능을 테스트했다. HtmlUnit 화면 스크레이퍼를 사용하려면 htmlPage 인스턴스에서 getTitle() 메서드를 호출하기만 하면 됩니다. 이 예제는 완벽하지 않습니다. 할 수있는 다른 많은 것들이 있습니다 : 내 이전 블로그 HtmlUnit 대 JSoup의 연속에서,이 블로그에서, 나는 HtmlUnit을 사용하여 간단한 웹 스크래핑 샘플을 작성하는 방법을 보여줍니다. 이 예제에서는 html 데이터를 구문 분석 하 고 구조화 된 형식으로 구조화 되지 않은 웹 데이터를 가져옵니다. 이 경우 해당 HTML 페이지에 Thymeleaf 템플릿을 사용합니다(여기에서 전체 Thymeleaf 예제 참조) 이전 예제에서는 웹 사이트를 입력하고 탐색하여 원하는 모든 정보를 검색하는 방법을 보여 줍니다. 이제 즐겨 찾는 IDE를 열 수 있으며 코딩할 시간입니다.

HtmlUnit은 요청을 하기 위해 웹클라이언트가 필요합니다. 많은 옵션이 있습니다 (프록시 설정, 브라우저, 리디렉션 사용 …). 우리는 우리의 예제에 필요하지 않기 때문에 자바 스크립트를 사용하지 않도록 설정하고 자바 스크립트를 사용하지 않도록 설정하면 일반적으로 페이지로드가 빨라집니다 (이 특정 한 경우에는 중요하지 않습니다). 그런 다음 해커 뉴스의 URL에 GET 요청을 수행하고 서버에서 받은 HTML 콘텐츠를 인쇄합니다. 텍스트를 받는 메서드가 있는 컨트롤러와 폼이 있는 단일 HTML 페이지와 같은 매우 간단한 예제 앱을 구현해 보겠습니다. 사용자는 양식에 텍스트를 입력하고 양식을 제출할 수 있으며 해당 양식 아래에 텍스트가 표시됩니다. 이 로 시작하는 것이 도움이 될 수 있습니다 …… http://www.bridgei2i.com/blog/extracting-data-from-webpages-in-java-with-help-of-htmlunit/ id “로고”가있는 html 요소는 아마도 이미지가 아니라 “div”요소이기 때문입니다.