본문 바로가기
카테고리 없음

[Upstage AI Lab 6기] Python 강의 후기 - 웹 크롤링 강좌

by 센코보 2024. 11. 23.

<개념 정리>

 

크롤링이란?

- 웹페이지의 데이터를 추출하는 행위

 

크롤링 활용한 웹사이트 사례

- 검색 포털, 상품 비교 사이트, 부동산 사이트 등등

 

<클라이언트 서버 구조>

 

 

 

HTTP (Hypertext Transfer Protocol)

- 웹상에서 데이터를 전달할 때 사용되는 프로토콜

 

웹페이지의 기본 요소

HTML : 웹페이지의 기본적인 정보로 구성됨

CSS : 웹페이지의 디자인 요소 추가

Javascript : 웹페이지에 동적인 기능 추가

 

HTML 예시

<!doctype html>

<html>

    <head>

        <link href="styles/style.css" rel="stylesheet" type="text/css">  css파일을 연결하여 웹페이지에 적용되게 함

       <title>기초 크롤링</title>

    </head>

 

    <body>

        <p> 크롤링을 해봅시다 </p>

        <script src="scripts/script.js"></script> 자바 스크립트 파일을 연결하여 웹페이지에 적용되게 함

    </body>

</html>

 

크롤링에서는 대부분 html 파일속의 정보를 이용하여 크롤링을 한다.

 

json 이란?

- JavaScript Object Notation 의 줄임말로키:값 쌍의 형태를 활용해 인간이 읽을 수 있는 형태의데이터를 교환 및 저장할 수 있는 파일 포맷

 

 

크롤링을 할때에는 json 파일을 많이 이용한다

 

json 파일 활용예

 

 

 

 

 

크롤링을 위한 라이브러리 BeautifulSoup 사용예

 

 

 

#패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab #국비지원 #패스트캠퍼스업스테이지에이아이랩 #패스트캠퍼스업스테이지부트캠프