BeautifulSoup 3

webscrapping, beautifulsoup, getText, get, strip, isdigit, fromkeys, extract

목차 beautifulscoup 웹사이트는 엄청나게 복잡한 코드로 이루어져있는데, 뷰티풀 수프는 개발자가 웹사이트를 이해할 수 있도록 도와주는 파이썬 모듈이다. 뷰티풀 수프를 이용하면 복잡한 HTML 코드에서 원하는 HTML 요소를 정확하고 빠르게 가져올 수 있다. 즉, 여러 정보에서 필요한 정보만 쏙 뽑아오는 것이다. 인터넷 웹사이트 중 하나를 뷰티풀 수프를 이용해 가져온다고 가정하자. 1. html파일 읽어온다. -cp949 codec이 해석하기가 어렵다는 에러가 뜨는 것을 방지하기 위해 encoding utf-8을 추가한다. with open("website.html", encoding="UTF-8") as file: contents=file.read() 또는 API를 이용한다. import req..

[45-3 BeautifulSoup] 웹사이트의 html 코드 가져오기 , 웹스크래핑하기, 새로운 text파일 만들기

웹사이트의 html 코드 가져오는 방법 2가지 1. with 키워드 사용하기 웹사이트에서 오른쪽 마우스 클릭> 다른 이름으로 저장>html문서로 저장하기 작업하는 파일과 같은 폴더에 저장하기 with키워드로 파일 불러오기 에러가 발생하면 인코딩 UTF-8을 써준다. with open("The 100 Greatest Movies.html", encoding="UTF-8") as f: response= f.read() 2. requests 패키지 사용하기 - requests 패키지 import하기 import requests - URL 가져오기 URL = "https://web.archive.org/web/20200518073855/https://www.empireonline.com/movies/featur..

HTML & CSS 2022.10.23

[45-1 BeautifulSoup] 웹스크래핑, 뷰티풀수프, prettify

뷰티풀 수프 이용하여 웹사이트를 스크래핑하기 뉴스에서 스크랩을 한다는 것은 내가 원하는 것을 따로 모아 놓는다는 뜻인데, Web scraping은 website의 HTML 코드를 확인하고, 원하는 정보를 얻는다는 뜻이다. 우리는 오늘 스프를 만들어볼 것이다. 아름다운 스프 BeautifulSoup말이다! 웹사이트는 엄청나게 복잡한 코드로 이루어져 있다. 뷰티풀 수프는 개발자가 웹사이트를 이해할 수 있도록 도와주는 파이썬 모듈인데, 뷰티풀 수프를 사용하면 이렇게 복잡한 HTML 코드에서 원하는 HTML 요소를 정확하고 빠르게 가져올 수 있다. 즉 여러 정보에서 필요한 정보만쏙 뽑아올 수 있는 것이다. 예를 들어보자. 여기 HTML 문서가 있다. 뷰티풀 수프를 이용해서 문서를 가지고 수프를 만들어본다. 수프..

HTML & CSS 2022.10.23