시그마 삽질==six 시그마

java 간단한 크롤링 본문

프로그래밍/Java

java 간단한 크롤링

Ethan Matthew Hunt 2020. 3. 21. 22:48

1. JSOUP 정의

 

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors

 

요기를 참조

 

 

2. JSOUP 라이브러리 메이븐 연결

 

<dependency>    
    <groupId>org.jsoup</groupId>  
    <artifactId>jsoup</artifactId>  
    <version>1.13.1</version>
</dependency>

 

 

 

3.  자바 예시 코드 작성

 

사이트에서 pdf 파일 링크가 걸려있는 <a> 태그의 href 속성값들만 추출코자 한다

public class CrawlingTest {

	public static void main(String[] args) throws IOException {
		Document doc = Jsoup.connect("http://consensus.hankyung.com/apps.analysis/analysis.list").get();//html 가져오기
        	//System.out.println(doc.toString()); //전체 html 출력

		Elements els = doc.select(".dv_input a"); // class dv_input인 a 태그 전부 찾음
        	//Element els = doc.select(".dv_input a").get(0); //get(i)를통해 몇번째 요소 가져올수 있음
		for(Element e : els){ 
			System.out.println(e.getElementsByAttribute("href").attr("href"));  //a 태그의 href 속성값 전부 print
		}
	}
}

 

 

Document의 API 

Document 부모인 Element의 API 

 

Comments