Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 리눅스
- aws
- Stream
- CompletableFuture
- javascript case
- @Transactional Propagation
- 친절한 SQL 튜닝
- HandlerMethodArgumentResolver
- 자바 ORM 표준 JPA 프로그래밍
- 리팩토링 2판
- multipart테스트
- intellij 핵심 단축키
- 자바 ORM 표준 JPA 프로그래밍 정리
- vue.js
- Spring Cloud Netflix
- JPA
- intellij 즐겨찾기
- IntelliJ
- 마이크로 서비스
- ksqldb
- git
- intellij favorites
- 원격 브랜 삭제
- 백명석님
- java
- #docker compose
- Linux
- findTopBy
- ksql
- @TransactionalEventListener
Archives
- Today
- Total
시그마 삽질==six 시그마
java 간단한 크롤링 본문
1. JSOUP 정의
jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors
요기를 참조
2. JSOUP 라이브러리 메이븐 연결
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
3. 자바 예시 코드 작성
사이트에서 pdf 파일 링크가 걸려있는 <a> 태그의 href 속성값들만 추출코자 한다
public class CrawlingTest {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://consensus.hankyung.com/apps.analysis/analysis.list").get();//html 가져오기
//System.out.println(doc.toString()); //전체 html 출력
Elements els = doc.select(".dv_input a"); // class dv_input인 a 태그 전부 찾음
//Element els = doc.select(".dv_input a").get(0); //get(i)를통해 몇번째 요소 가져올수 있음
for(Element e : els){
System.out.println(e.getElementsByAttribute("href").attr("href")); //a 태그의 href 속성값 전부 print
}
}
}
Document의 API
Document 부모인 Element의 API
'프로그래밍 > Java' 카테고리의 다른 글
Java stream 객체 필드 수정 (0) | 2020.04.16 |
---|---|
자바 스트림 null 체크 (0) | 2020.04.03 |
Java 스트림 중첩 리스트내 inner 리스트 사용 (0) | 2020.04.03 |
자바 반복문 도중 배열 삭제(ConcurrentModificationException) (0) | 2020.03.22 |
ArrayList를 comma로 구분된 String 으로 변환 (0) | 2020.03.21 |
Comments