Web_Crawling

http://aispiration.com/yonsei/data/R_Web_Crawling.pdf
웹 메인 페이지에 “robots.txt”를 확인해야 함
Request
- GET:
URI(Uniform Resource Indicator)만 가지고 웹 서버에 요청; 요청라인+요청헤더
- POST:
크롬 개발자 도구를 이용해 URL(Uniform Resource Locator)과 Parameter를 찾아야 함; 요청라인+요청헤더+메시지바디
Response
응답헤더+바디

응답헤더: HTTP_ver+상태코드+일시+콘텐츠형태+인코딩방식+크기 등
바디: HTML

인코딩 방식

한글에 대해 Windows는 EUC-KR(CP949)를 기본적으로 사용하고, Mac, LINUX는 UTF-8을 기본적으로 사용

로케일(Locale)

locale

LANG=""

LC_COLLATE="C"

LC_CTYPE="UTF-8"

LC_MESSAGES="C"

LC_MONETARY="C"

LC_NUMERIC="C"

LC_TIME="C"

LC_ALL=


URL에 사용되는 문자는 퍼센트 인코딩(percent-encoding)
Web Crawling R packages