시그마 삽질==six 시그마

java 간단한 크롤링 본문


java 간단한 크롤링

Ethan Matthew Hunt 2020. 3. 21. 22:48

1. JSOUP 정의


jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors


요기를 참조



2. JSOUP 라이브러리 메이븐 연결






3.  자바 예시 코드 작성


사이트에서 pdf 파일 링크가 걸려있는 <a> 태그의 href 속성값들만 추출코자 한다

public class CrawlingTest {

	public static void main(String[] args) throws IOException {
		Document doc = Jsoup.connect("http://consensus.hankyung.com/apps.analysis/analysis.list").get();//html 가져오기
        	//System.out.println(doc.toString()); //전체 html 출력

		Elements els = doc.select(".dv_input a"); // class dv_input인 a 태그 전부 찾음
        	//Element els = doc.select(".dv_input a").get(0); //get(i)를통해 몇번째 요소 가져올수 있음
		for(Element e : els){ 
			System.out.println(e.getElementsByAttribute("href").attr("href"));  //a 태그의 href 속성값 전부 print



Document의 API 

Document 부모인 Element의 API 

