본문 바로가기

beautifulsoup3

[Crawling]_뉴스 타이틀만 가져올 수 있을까? 라이브러리 가져오기 / html 가져오기 ch02.py 파일을 만든 후 다음을 입력하여 라이브러리를 가져옵니다. import requests from bs4 import BeautifulSoup requests는 사람 편의를 생각하여 http요청을 하는 라이브러리입니다. 우선 naver.com으로 해보겠습니다. 먼저 상태코드를 확인합니다. url1= "https://www.naver.com" # 요청 url 변수에 담긴 url의 html 문서를 출력한다. req = requests.get(url1) print(req.status_code) '상태코드 200' 은 서버가 요청을 제대로 처리했다는 의미입니다. 그럼 계속 이어서 하겠습니다. 다음 코드는 웹 페이지의 html을 모두 불러오는 것입니다. 이는 우.. 2023. 8. 6.
[BeautifulSoup]_'아름다운 스프' 아니고 data를 가져오는 것? - find() BeautifulSoup 관련 내용은 다음 Documentation을 참고하였습니다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation Beautiful Soup Documentation Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It .. 2023. 8. 6.
[Crawling]_웹 페이지의 데이터를 가지고 올 수 있을까? 컴퓨터 관련 공부를 하기 전에도, 컴퓨터를 유독 많이 좋아하는 친구들의 대화 중에 '크롤링'이란 단어를 들은 기억이 납니다. 저는 수영을 좋아해서 "수영할 때 자유형 얘기하는거야?"라며 장난식으로 대화에 껴들었지만 금방 대화에 흥미를 잃었던 기억이 나네요. ㅎㅎ 드디어 그 대화 속 크롤링(crawling)에 대해 공부해봅니다. chat GPT에게 물어봤습니다. 더보기 크롤링(crawling)은 웹 페이지나 웹 사이트에서 정보를 수집하는 과정을 말합니다. 일반적으로 인터넷에 있는 다양한 웹 페이지를 자동으로 탐색하면서 원하는 데이터를 추출하는 작업을 의미합니다. 크롤링은 웹 크롤러(웹 스파이더, 웹 로봇 등으로도 불림)라는 프로그램을 사용하여 수행됩니다. 크롤링 과정은 다음과 같이 이루어집니다: 웹 페이지.. 2023. 8. 4.
반응형