티스토리 뷰
글을 자꾸 나누게 된다. 너무 한 글에 여러 내용이 있으면 좀 그렇다..
이번엔 data handling
간략하게만 다뤄보려고한다. 나중에 직접 처리할 때 실제 예시들을 올려봐야겠다.
우리가 처리해야하는 데이터 저장 방식들은 상당히 많다.
대표적으로 네 종류를 설명해주셨다.
- CSV
- 웹(html)
- XML
- JSON
이렇게 4개의 데이터 처리에 대해 후딱 보고 주말을 즐겨야지~~!
csv
쉼표(,)로 구분한 텍스트 파일이다
데이터 분석할 때 제일 흔하게 다뤘던 파일이다
읽기 예제들을 보여주셨지만, 모듈을 사용하지 않고 파일 읽듯이 읽었기에 나중에 pandas를 배우면 그 때 정리해도 상관 없을 것 같다.
web
웹데이터 분석 정말 너무 해보고싶다.
웹페이지의 HTML 소스파일을 다운받은 후 분석하는 것이다.
이 때 정규식을 많이 사용한다고 한다.
정규식하면 아픈 컴파일러의 기억밖에 안떠오른다....교수님 잘 지내세요..? 탈모 진행되시는거 보니까 아닌거같았어요.. 다 교수님을 욕해도 전 교수님 좋아해요..학점미화 대만세
좋은 사이트를 알았다.
정규식 연습장 http://www.regexr.com 에서 정규식을 연습할 수 있다고한다!
나 진짜 정규식 암기는 못하지만 그래도 잘 쓸 수 있을 것 같다 컴파일러 과제..Flex 를 이용하여 C 소스코드를 위한 Lexical Analyzer 만들기 이과제였는지 Yacc 을 이용하여 C 소스코드를 위한 Parser 만들기 이거였는지 둘다였는지 기억은 안나지만 진짜 죽도록썻었닿ㅎㅎ
아픈 기억이라 사족이 길어졌다 그래도 한번만 정리하고 넘어가자면
[ ] : 대괄호 사이의 문자들과 매칭하라는 의미
- : 범위지정 A-Z 0-9 이런느낌
. : 전체
* : 반복
+ : 1회 이상 반복
{m.n} : 반복 횟수 지정
? : 1회 반복
| : or
^ : not
이러한 정규식들을 활용해서 HTML의 정보를 캐내면 된다!
XML
데이터의 구조와 의미를 설명하는 마크업 언어이다
태그와 태그 사이에 값이 표시되고 구조적인 정보를 표현할 수 있다.
컴퓨터 간에 정보를 주고받기가 매우 유용한 저장 방식으로 쓰이고 있다고 한다!
beautifulsoup 파서로 파싱이 가능하다고 한다~
JSON
자바 스크립트의 데이터 객체 표현 방식이라고 한다.
간결성으로 기계와 인간이 모두 이해하기 편하다고 한다
데이터 용량도 적고 코드로 전환도 쉬워서 XML 대체제로 많이 활용되고 있다고 한다!
json 모듈을 이용하여 손쉽게 파싱 및 저장이 가능하고 대부분 dict 타입과 상호 호환이 가능하다고 한다
웹에서 제공하는 API는 대부분 정보 교환시에 JSON을 활용한다!
정말 길고 길었던 일주일이 끝났따 쀼듯
'boostcamp AITech' 카테고리의 다른 글
[6일차] 벡터와 행렬 (0) | 2021.01.26 |
---|---|
[주말]Python의 특수한 메소드와 underscore (0) | 2021.01.24 |
[5일차] 예외 / 파일 / 로그 처리 (0) | 2021.01.22 |
[4일차] OOP 특징들과 decorate / 모듈과 패키지 (0) | 2021.01.21 |
[3일차] 파이썬을 파이썬답게 쓰자!3️⃣-Pythonic Code2- (0) | 2021.01.21 |