본문 바로가기

Crawling6

[Crawling]_서울열린데이터광장에서 API로 데이터 수집하기 오늘은 '서울열린데이터광장'에서 데이터를 가져와 가공하는 연습을 하겠습니다. 서울열린데이터광장? 서울열린데이터광장은 서울시 시정활동 과정에서 수집된 다양한 데이터를 공유하는 곳입니다. 누구나 무료로 데이터를 이용하고, 재사용할 수 있습니다. 데이터에 대한 라이선스 정보도 함께 게시하고 있습니다. 데이터 수집 및 가공하는 실습을 진행하기 너무나도 좋은 우리나라입니다. ㅎㅎㅎ 데이터 수집 전 필수로 할 일! 인증키 발급 API로 데이터를 가져오기 위해서는 인증키가 꼭 있어야 합니다. 우선 우리가 실습할 데이터를 검색하겠습니다. 거기서 인증키를 발급받을 수 있어요! '서울시 공동주택 아파트 정보'를 검색합니다. 스크롤을 조금 내리다보면 Open API 항목이 보입니다. 클릭! 오른쪽 위에 '인증키 신청'을 누.. 2023. 8. 15.

[Crawling]_Selenium 설치 확인하기 우리의 친구, ChatGPT에게 물어봤습니다. 셀레늄은 다양한 프로그래밍 언어 (예: 자바, 파이썬, C# 등)를 지원하며, 브라우저를 직접 제어하여 사용자의 행동과 동일한 동작을 수행하게끔 만들어줍니다. 웹 페이지를 열거나 닫고, 버튼을 클릭하거나 텍스트를 입력하는 등의 작업을 자동화하여 테스트 케이스를 실행하거나 웹 데이터를 추출하는 데 사용됩니다. 크롤링을 하기 앞서 Selenium이 잘 작동하는지 확인하겠습니다. Selenium 설치하기 작업 폴더에서 VS code를 실행하고 가상 환경으로 접속합니다. source venv/Scripts/activate Selenium을 설치합니다. pip install selenium pip install webdriver-manager # 매번 업데이트 되는 .. 2023. 8. 10.

[Crawling]_API를 이용하여 웹에서 정보 가져오기 API??????? API는 Application Programming Interface의 줄임말입니다. 프로그램들이 서로 상호작용하는 것을 도와주는 매개체 역할을 합니다. 기상청의 소프트웨어 시스템에서는 일일 기상 데이터가 들어 있습니다. 휴대폰의 날씨 앱은 API를 통해 이 시스템과 '대화'하여 휴대폰에 매일 최신 날씨 정보를 표시합니다.(이 예시는 https://aws.amazon.com/ko/what-is/api/에서 가져왔습니다.) API 방식으로 데이터 수집하기 API방식으로 데이터 수집하는 과정은 우리는 서울열린데이터센터, 공공데이터 포털을 이용할 것입니다. 데이터 수집 전 가장 먼저 할 일은 각 데이터마다 존재하는 '공식 문서'를 보는 것입니다. 공식문서 안에는 API의 응답방식(xml, .. 2023. 8. 7.

[Crawling]_뉴스 타이틀만 가져올 수 있을까? 라이브러리 가져오기 / html 가져오기 ch02.py 파일을 만든 후 다음을 입력하여 라이브러리를 가져옵니다. import requests from bs4 import BeautifulSoup requests는 사람 편의를 생각하여 http요청을 하는 라이브러리입니다. 우선 naver.com으로 해보겠습니다. 먼저 상태코드를 확인합니다. url1= "https://www.naver.com" # 요청 url 변수에 담긴 url의 html 문서를 출력한다. req = requests.get(url1) print(req.status_code) '상태코드 200' 은 서버가 요청을 제대로 처리했다는 의미입니다. 그럼 계속 이어서 하겠습니다. 다음 코드는 웹 페이지의 html을 모두 불러오는 것입니다. 이는 우.. 2023. 8. 6.

[BeautifulSoup]_'아름다운 스프' 아니고 data를 가져오는 것? - find() BeautifulSoup 관련 내용은 다음 Documentation을 참고하였습니다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation Beautiful Soup Documentation Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It .. 2023. 8. 6.

[Crawling]_웹 페이지의 데이터를 가지고 올 수 있을까? 컴퓨터 관련 공부를 하기 전에도, 컴퓨터를 유독 많이 좋아하는 친구들의 대화 중에 '크롤링'이란 단어를 들은 기억이 납니다. 저는 수영을 좋아해서 "수영할 때 자유형 얘기하는거야?"라며 장난식으로 대화에 껴들었지만 금방 대화에 흥미를 잃었던 기억이 나네요. ㅎㅎ 드디어 그 대화 속 크롤링(crawling)에 대해 공부해봅니다. chat GPT에게 물어봤습니다. 더보기 크롤링(crawling)은 웹 페이지나 웹 사이트에서 정보를 수집하는 과정을 말합니다. 일반적으로 인터넷에 있는 다양한 웹 페이지를 자동으로 탐색하면서 원하는 데이터를 추출하는 작업을 의미합니다. 크롤링은 웹 크롤러(웹 스파이더, 웹 로봇 등으로도 불림)라는 프로그램을 사용하여 수행됩니다. 크롤링 과정은 다음과 같이 이루어집니다: 웹 페이지.. 2023. 8. 4.

이전 1 다음

티스토리툴바