웹스크래핑 2

[48-4 Selenium] 웹스크래핑 연습 문제, find_element, ID, #

웹스크래핑 연습문제 웹스크래핑 연습 문제를 풀어보자. 위키피디아 : https://en.wikipedia.org/wiki/Main_Page 해당 웹페이지에서, 빨강색으로 밑줄 그은 숫자만 스크래핑해보자. 웹스크래핑 과정 웹사이트에서 숫자에 해당하는 부분의 태그가 무엇인지 찾기 위해, 해당 요소 근처에서 마우스 오른쪽 클릭을 하고, 검색을 클릭한다. 그러면, 아래처럼 특정 부분이 선택되어 HTML 코드가 보인다. find_element(By.CSS_SELECTOR, #id) find_element 이용하여, 정보를 뽑아내면 되는데 여기서는 해당 요소를 특정할 수 있는 것이 id 속성이다. id 속성을 select할 때는 특별히 주의를 기울여야 한다. 클래스 속성을 쓸 때, .(점)을 붙이는 것 처럼 id ..

HTML & CSS 2022.10.25

[45-1 BeautifulSoup] 웹스크래핑, 뷰티풀수프, prettify

뷰티풀 수프 이용하여 웹사이트를 스크래핑하기 뉴스에서 스크랩을 한다는 것은 내가 원하는 것을 따로 모아 놓는다는 뜻인데, Web scraping은 website의 HTML 코드를 확인하고, 원하는 정보를 얻는다는 뜻이다. 우리는 오늘 스프를 만들어볼 것이다. 아름다운 스프 BeautifulSoup말이다! 웹사이트는 엄청나게 복잡한 코드로 이루어져 있다. 뷰티풀 수프는 개발자가 웹사이트를 이해할 수 있도록 도와주는 파이썬 모듈인데, 뷰티풀 수프를 사용하면 이렇게 복잡한 HTML 코드에서 원하는 HTML 요소를 정확하고 빠르게 가져올 수 있다. 즉 여러 정보에서 필요한 정보만쏙 뽑아올 수 있는 것이다. 예를 들어보자. 여기 HTML 문서가 있다. 뷰티풀 수프를 이용해서 문서를 가지고 수프를 만들어본다. 수프..

HTML & CSS 2022.10.23