티스토리

라이크나우
검색하기

블로그 홈

라이크나우

raiknow.tistory.com/m

지금 당장 행복하자!

구독자
11
방명록 방문하기

주요 글 목록

  • 내가 만든 쿠키~를 GPT와 검토해보기 외부 API에서 데이터를 가져와서 적재하는 프로세스를 만들었습니다. 이 작업은 처음이었고, 혼자 진행하다 보니 구조적인 부분에서 경험 부족을 느꼈습니다. 그래서 제가 만들어낸 구조가 과연 적절한 설계인지 GPT와 심도 있는 토론을 통해 점검해보고자 합니다. 이번 글에서는 다음과 같은 구조에 대해 평가합니다:Airflow DAGAirflow는 주기적으로 API 서버를 호출하여 데이터를 수집 및 처리합니다.API 서버에서 데이터 수집을 마치면 데이터브릭스 Job을 수행시켜 테이블을 적재합니다.API 서버API 서버는 컨테이너 환경에서 실행되며 외부 URL 호출하여 데이터를 수집합니다.수집된 데이터는 내부적으로 변환한 뒤 S3에 Parquet 형식으로 저장합니다.데이터브릭스 적재저장된 데이터의 경로를 전달받아.. 공감수 2 댓글수 0 2025. 1. 28.
  • 다진마늴또 행사 회고 회사다니며 이 정도 규모의 외부 행사를 진행할 거라곤 상상조차 못했던 사람의 우당탕탕 44명 마니또 진행 회고*참고 : 다진마늘은 글또 내 소모임으로 목표를 다지자는 의미로 만든 채널입니다. 매일 각자의 TODO를 올리며 출근하고 서로에게 응원하며 힘을 얻는 소모임! 행사 취지- 다진마늘이 규모가 커지면서 서로 간의 유대감이 약해지고 있다는 느낌을 받았습니다- 아무래도 서로 잘 모르니 어쩔 수 없는 일이라고 생각합니다. 그래서 온라인 상으로 여러 시도를 해보긴 했습니다. 스레드 변경.. 릴레이 퀴즈 등등..- 하지만 확실한 한방은 역시 오프라인 모임일텐데 아무것도 없이 밥만 먹는 모임은 좋은 기억을 드리기엔 아쉽다는걸 경험 상 알고 있었습니다.- 가장 큰 이유는 원래 제 성격이.. 성냥불에도 쉽게 타오릅.. 공감수 16 댓글수 1 2025. 1. 6.
  • Pydantic 기본 사용법과 활용 사례 요즘은 데이터를 다양한 소스(API, 파일, 데이터베이스 등)에서 수집하고 이를 처리하거나 전달해야 하는 일을 주로 진행하고 있습니다. 특히 외부API에서 데이터를 수집하고 있는데 이 과정에서 데이터의 무결성을 보장하기 위한 방식으로 Pydantic을 사용하고 있어 자세히 알아보았습니다.Pydantic 소개Pydantic은 Python에서 데이터 유효성 검증과 데이터 직렬화를 위해 설계된 라이브러리입니다. FastAPI와 같은 최신 웹 프레임워크에서 요청 및 응답 데이터를 처리하는 데 필수적인 역할을 하고 있으며 데이터를 안전하고 효율적으로 관리할 수 있도록 도와줍니다. 주요 특징타입 기반 데이터 검증: Python의 타입 힌트를 활용해 데이터의 유효성을 자동으로 검사합니다.자동 데이터 변환: 정의된 타.. 공감수 1 댓글수 0 2024. 12. 22.
  • 데이터 엔지니어링에서의 Conf 파일 관리(쪼갤까, 합칠까) 모든 개발분야에서 그렇겠지만 데이터 엔지니어링에서도 Configuration 파일(conf 파일)이 데이터 파이프라인 설정, 데이터 소스 연결, 워크플로우 정의 등 핵심적인 역할을 합니다. 인프라가 복잡해질수록 함께 복잡해지는 구성 파일의 효율적인 관리와 유지보수를 위한 고민이 생기더라구요. 이번 글에서는 수많은 yaml파일을 쪼개는게 나은지 하나에 통합해서 관리하는게 나은지 감이 안 잡혀서 조사한 내용을 작성해보았습니다. 1. Configuration 파일의 역할Configuration 파일은 데이터 엔지니어링에서 다음과 같은 목적으로 사용됩니다   •   데이터 소스 연결 정보: 데이터베이스 URI, API 키, 인증 정보 등을 관리   •   파이프라인 설정: ETL 작업, 데이터 처리 방식, 배치.. 공감수 3 댓글수 0 2024. 11. 24.
  • 데이터 관리의 새로운 패러다임: 데이터 메시(Data Mesh) 많은 기업들이 데이터를 모으기 위해 데이터 플랫폼, 데이터 레이크, 데이터 웨어하우스 등을 구축하기 시작한 후 많은 시간이 흘렀다. 이러한 플랫폼들이 부상한 이유는 다양한 소스의 데이터를 한 곳에 모아 데이터 분석, 시각화 등을 통해 새로운 인사이트를 얻고자 했기 때문이다. 처음엔 이렇게 모으면 데이터를 잘 활용할 수 있을거란 기대가 있었지만 세상일은 언제나 맘같이 돌아가지 않는다~이번 글에선 데이터 중앙화를 채택하게 된 배경과 문제점, 새로운 데이터 관리 아키텍처인 데이터 메시에 대해서 알아보자. 데이터 중앙화데이터가 그 자체로서 기업의 자산으로 여겨지는 순간부터 많은 기업이 데이터를 모으고 관리하기 시작하였다. 데이터 분석가가 신제품 출시 후 고객 반응을 분석하고 싶었다고 치자. 마케팅팀에게 캠페인 .. 공감수 4 댓글수 0 2024. 10. 27.
  • vmware workstation pro 17 설치 CKA 실습 좀 해보려다가 다운로드 방법이 며칠전에 바뀌어서 뻘짓하게 되어 쓰는 글broadcom에서 인수하여 유료화되었지만 personal 목적으로는 다운의 가능하단다. 1. https://www.broadcom.com/ 회원 가입2. 회원 가입 후에 나오는 build your profile 어쩌구는 안해도 됨 3. 아래 주소 클릭하여 다운로드https://support.broadcom.com/group/ecx/productdownloads?subfamily=VMware+Workstation+Pro Home - Support Portal - Broadcom support portalIt appears your Broadcom Products and Services are supported by one .. 공감수 1 댓글수 0 2024. 5. 21.
  • 데이터 파이프라인 구축 시 고려사항 체크리스트! 다수의 회사에 다수의 데이터 파이프라인을 구축하는 프로젝트에 참여해본 경험을 바탕으로 초반에 고려하지 않으면 후반에 힘들어질 사항들을 정리해보고자 한다.  보통 우리를 통해서 파이프라인을 구축하는 회사는 내부에 데이터 인력이 없거나 데이터에 대한 정의가 통일적이지 않은 경우가 많기 때문에 생각보다 더 깊은 곳에서 부터의 변화가 필요하다고 느꼈다. 이런 회사들이 가장 먼저 고려해야할 점들은 무엇이 있을까? 1. 가장 중요하지만 꽤나 어려운 : 데이터 현황 제대로 파악하기당연히 되어있지 않냐고? 절대 놉.테이블명이나 컬럼명 등의 네이밍룰이 잘 정의되어 있는건 바라지도 않는다. 어디에서 와서 어디로 가는지(리니지) 또한 요구하지 않는다. 없을걸 아니까.. 그저 전체 테이블, 전체 컬럼 현황이 필요하고 이 중 .. 공감수 0 댓글수 0 2024. 5. 12.
  • 내가 경험한 데이터 스택 데이터 플랫폼 분야는 끊임없이 변화하고 있다. 이 글에서는 직접 경험한 다양한 데이터 플랫폼 프로젝트를 통해 모던 데이터 스택의 구성 요소들과 그 적용 사례들을 회고해보려 한다. 각 프로젝트에서의 도전과 해결, 사용된 기술들이 어떻게 모던 데이터 스택의 철학과 부합하는지 살펴보자. (초기 플젝은 기억에 의존하고 있기때문에 부정확한 정보가 있을 수 있습니다..) 프로젝트 1: AWS Glue를 중심으로 한 데이터 파이프라인 구축 기술 스택 및 목표 기술 스택: AWS Glue(PySpark), S3, Airflow 목표: RDB의 데이터를 S3로 적재하고 AWS Glue 카탈로그를 사용하여 데이터 관리 모던 데이터 스택 적합성 AWS GLUE Source 데이터와의 연결이 쉬웠고 데이터를 Glue Cata.. 공감수 1 댓글수 0 2024. 3. 30.
  • DBT를 도입한대요 (2) - 기초편 지난 글은 DBT의 개념에 대해서 담았다. https://raiknow.tistory.com/128 DBT를 도입한대요 (1) DBT와 Airflow를 도입한다고 전달받아서 DBT에 대한 사전 공부가 필요했다. 이번 글은 DBT에 대한 개념을 다룬 글이 될거고, 이후로는 도입기를 작성해둘 예정이다. DBT 소개 DBT(Data Build Tool)는 SQL을 사 raiknow.tistory.com 이번 글은 DBT의 주요 사용방법과 Airflow와 연동하는 방법에 대해 담을 예정이다. DBT 주요 기능 사용법 dbt init을 하고나면 아래와 같은 디렉터리 구조가 생긴다. ├── README.md ├── analysis ├── data ├── dbt_project.yml ├── macros ├── mod.. 공감수 0 댓글수 0 2024. 2. 29.
  • DBT를 도입한대요 (1) - 개념편 DBT와 Airflow를 도입한다고 전달받아서 DBT에 대한 사전 공부가 필요했다. 이번 글은 DBT에 대한 개념을 다룬 글이 될거고, 이후로는 도입기를 작성해둘 예정이다. DBT 소개 DBT(Data Build Tool)는 SQL을 사용하여 데이터 변환 작업(ETL 중 T만 담당)을 자동화하고 모듈화하는 데 도움을 주는 오픈 소스 도구이다. 데이터 웨어하우스 내에서 직접 작업을 실행하며, 데이터 모델링, 테스트, 문서화 등의 과정을 단순화하고 효율화 한다. DBT는 사용자가 작성한 SQL 파일을 가져와 실행 가능한 SQL로 컴파일한 다음 이러한 SQL 문을 데이터 웨어하우스에 직접 실행하는 방식으로 작동한다. 추가적인 데이터 로드나 다른 Transformation 용 도구 없이 raw 데이터를 구조화하.. 공감수 0 댓글수 1 2024. 2. 4.
  • ChatGPT 개인화 및 Store 탐방하기 요즘 사람 만날 때 마다 제일 많이 하는 말? 바로 chat gpt 활용능력이 곧 그 인간의 능력이 될 것이다 라는 나의 의견을 매~~번 말하고 다닌다. 이 기적같은 gpt.. 하루가 다르게 바뀌고 새로운게 생겨서 매주 신기한 이 놈의 gpt.. 한번 제대로 파야지 더 잘 쓸 수 있을거같아서 글을 써본다. 이 글에서는 먼저 나에게 맞는 GPT를 생성해보고 GPTs가 classic 버전과 얼마나 달라졌는지 확인해본다. 이후에는 다른 사람들이 만든 GPTs(Explore GPTs 탭)의 여러 GPTs를 사용해본다. (내가 쓴 글과 구별하기 위해 GPTs의 글은 회색+밑줄이 들어가있다!) 맞춤 GPTs 생성해보기 분명 몇달전만 해도 프롬프트 마켓이 뜨고 있다고 해서 찾아봤던 기억이 있는데 이러한 기능은 이제 .. 공감수 2 댓글수 1 2024. 1. 20.
  • Hadoop의 미래(부제: 춘추전국시대) 왜 Hadoop의 미래를 의심하였는가 대학생 때 들었던 전공 수업에서 Hadoop Ecosystem을 처음 접했고 그 이후로 간간히 HDFS 등을 마주칠 기회가 있었다. 입사 후에는 Cloudera의 솔루션을 구축하는 SI업무를 맡아 Hadoop 과 더욱 친숙해졌다. 너무 많은 Ecosystem이 있어서 하나하나 알아가고 익숙해지는 데에만 많은 시간이 필요했고 입사한 지 2년이 지난 지금도 모르는게 더 많아서 더 깊게 알아가기 위해 공부를 하고있는데..솔직히 나는 Hadoop이 미래인줄로만 알았다. 하지만 RDB에서 HDFS로 데이터를 이관하기에 가장 만만하고 적당한 툴인 Sqoop이 Apach Attic으로 옮겨졌다는 안내를 보았다. 이해가 가질 않았다. 안정적으로 잘 사용고 있는 도구가 왜 다락방으로.. 공감수 2 댓글수 0 2024. 1. 7.
  • 빅데이터 시스템과 프록시 이번 프로젝트는 신규 서버에 빅데이터 플랫폼을 새롭게 구축, 데이터도 이관하고 데이터 포탈을 만들고 분석환경을 만들어주는 대형 프로젝트이다. 계속 국소적인 파트만 하는 프로젝트에 투입되다가 처음으로 전체적인 프로젝트에 투입된건데 그러다보니 SE(System Engineering)적인 지식들이 요구될 때가 많았다. 해당 지식이 너무도 없어서 무조건 수석님께 질문을 토스하고 스스로도 모르는 정보들에 허덕일 때 기본적인 개념이라도 이해하고 있어야된다고 느꼈다. 그 중 가장 자주 접하는 생소한 개념은 프록시 서버였다. 이 외에도 너무도 많기 때문에 이번 글은 두서없이 느껴질 수도 있다. 아직도 머리에서 이 전체 시스템에 대한 전체적인 그림이 안그려져서 나도 내가 뭘 공부하는지 모르는 상태이기 때문인데, 시작은 .. 공감수 1 댓글수 1 2023. 12. 10.
  • 프로젝트 회고 보호되어 있는 글입니다. 공감수 1 댓글수 0 2023. 7. 16.
  • Hadoop Ecosystem 컴포넌트들의 서버 구성 이번 글에서는 Hadoop Ecosystem을 구성할때 각 컴포넌트의 서버 종류가 무엇인지, 보통 어떻게 구성하는지(HA 등등)에 대해서 공부해보고자한다. 물론, 데이터의 양, 쿼리 복잡성등의 요구사항에 따라 구성은 다르게 설정되어야 하지만 우선은 일반적인 내용을 기준으로 서버 구성 방법을 정리하는 게 이번 목표이다. 이번에는 Hadoop Ecosystem 의 가장 기본이 되는 컴포넌트인 HDFS, YARN, Hive, Impala, Zookeeper를 먼저 다룰예정이다. 먼저 혼란을 방지하기 위해 MasterNode/WorkerNode와 NameNode/DataNode의 차이부터 짚고 넘어가야겠다. MasterNode/WorkerNode : 관리자 역할을 하는 서비스를 설치해놓은 서버를 주로 Maste.. 공감수 0 댓글수 0 2023. 6. 22.
  • 초보자라면 HDFS 헷갈리는 기본 개념 정리 (3) - Tez 이제 상황에 맞게 impala나 hive 쿼리를 나눠서 던질 수 있게 되었고, table upsert 및 delete가 필요하다면 kudu 테이블을 사용할 수도 있게 되었다. 하지만 hive table 을 사용하다보면 Tez 라는 단어를 보게된다. Hive에 쿼리를 날리고 로그를 들여다보면 Tez Session이 열린다는 이야기가 보이고, Tez UI 에서 MapReduce 작업의 현황을 확인할 수도 있다. Tez가 뭐길래 Hive table을 쓸 때마다 언급이 되는건지 궁금해진다. Apache Tez Apache Tez는 빅데이터 분석을 위한 유연하고 강력한 데이터 처리 엔진이다. Apache Tez의 주요 목표는 MapReduce 모델의 제한성을 극복하고, 하둡 생태계의 다양한 도구들과 잘 통합되도록.. 공감수 0 댓글수 0 2023. 6. 18.
  • Kerberos 인증 안할래야 안할 수가 없는 인증 Cloud 환경에 Hadoop Ecosystem 을 구축할 때에 Kerberos 인증이 필수적으로 들어간다.(Cloudera의 경우) Kerberos 인증이 뭔지 공부하고 개발 중 사용한 소소한 팁들도 남겨둘 겸 이번 주제는 kerberos로 잡았다. 이번 글에는 kerberos의 구성을 알아보고 사용자 입장에서 어떻게 인증하는지 알아보고자 한다. (언젠간) 다음 글에서는 kerberos를 설치하는 방법을 알아볼 예정이다. 참고로 kerberos의 대칭키, 인증키 어쩌구 저쩌구 등등의 내용은 넣지 않으려 한다. 해당 내용은 개발자와 운영자가 kerberos의 전반적인 과정을 이해하고 사용하는데에 있어서 조금은 동떨어져 있는 내용이기에 오히려 헷갈리게 만들 여지가 있다고 생각.. 공감수 0 댓글수 0 2023. 5. 7.
  • YARN 톺아보기 Hadoop EcoSystem을 배울 때 가장 먼저 등장하는게 바로 YARN이다. Apache Hadoop은 HDFS와 MapReduce 그리고 YARN으로 구성되어 있다고 배우기 때문이다. 하지만 YARN이 리소스 관리를 한다는 사실만 알지 정확히 어떤 부분에 관여하는지, 어떤 시스템이 YARN을 사용하는지 명확한 정리를 해본 적이 없어 이 글을 작성하게 되었다. YARN이란? 하는 일은 운영 체제(OS)라고 생각하면 이해가 쉽다. Hadoop의 클러스터 리소스 관리 및 작업 스케줄링 시스템으로 요약할 수 있으며 구체적인 잡을 요약하자면 Queue 형태로 Jar 파일들을 관리해준다. 서버 구성은 다음과 같다. - Resource Manager, Node Manager로 이루어져 있다. 각각은 Name/.. 공감수 0 댓글수 0 2023. 4. 9.
  • 초보자라면 HDFS 헷갈리는 기본 개념 정리 (2) - Kudu 온프렘 HDFS에 있는 데이터를 클라우드에 구축된 HDFS로 이관하는 작업을 진행했었다. 이때 단순 parquet, textfile 등으로 분산 저장된 테이블(managed table 이든, external table이든)은 이관이 단순했는데 Kudu는 몇가지 절차가 더 필요했다. Kudu가 도대체 뭐길래 계속 거론되는지, 조금은 성가시게 하는지 궁금했다. 그래서 Kudu는 Hadoop EcoSystem에서 또 어떤 역할을 담당하고 있는지, Hive Table을 잘 쓰고 있는 기업에서 왜 Kudu Table 을 도입하려 하는지 알아보고자 한다. 먼저 Hive Table에 대한 기본적인 개념을 알아야 비교할 수 있다. Hive Table Hive Table은 HDFS와 같은 분산 저장 시스템에 흩어진 데이.. 공감수 0 댓글수 0 2023. 3. 26.
  • 초보자라면 HDFS 헷갈리는 기본 개념 정리 (1) - Impala가 Hive보다 빠른 이유 -상황 설명 : 본인은 hive table에 쿼리할 때 보통 hive sql 보단 impala query가 빨라서 impala를 쓴다. 무조건 Impala가 빠른건 아니겠지만 보통.. 보통 그랬다. hive에만 존재하는 쿼리도 있고 impala에만 존재하는 쿼리도 있어서 그럴 때만 상황에 맞게 사용하고 있다. - 결론부터 말하자면 impala가 메타데이터를 캐시해두며 Map Reduce 프레임워크를 사용하지 않기 때문에 impala가 더 빠른 결과를 내온다고 알고있다. -이제 살펴볼 건 hive query는 왜 느리고, map reduce 자체가 분산 저장된 빅데이터를 빠르게 처리하기 위한 프레임워크인데 왜 이를 쓰지 않으면 빨라지는지 알아보고자 한다. MapReduce 맵리듀스프레임워크는 하둡을 배웠다.. 공감수 2 댓글수 0 2023. 2. 26.
  • 데이터 플랫폼의 Workflow 관리하기 데이터플랫폼의 크기와 복잡도가 커짐에 따라 workflow를 손쉽게 관리하는 툴의 필요성은 점점 더 커집니다. 데이터를 ETL하는 것 부터 그 이후 여러 로직을 처리할 수 있는 흐름을 한눈에 보아야 에러 관리 등이 편하기 때문에 이에 대한 요구가 커지는 것입니다. 이에 여러 workflow관리 프레임워크가 나와있습니다. 그 중 Airflow와 Oozie에 대해서 살펴보려 합니다. 여러 문서들을 살펴보니 전체적으로 Airflow의 인기가 더 좋아보입니다. 그 이유도 함께 알아보겠습니다. Airflow Airflow는 Python코드로 workflow를 build하고 run 하는 플랫폼으로 DAG로 task들을 표현합니다. 여기서 task는 서로 dependency를 가지고 있어 관리해야하는 data flo.. 공감수 1 댓글수 0 2022. 2. 17.
  • Cloudera Manager 설치 - Cluster Configuration 보호되어 있는 글입니다. 공감수 0 댓글수 0 2021. 11. 24.
  • Cloudera Manager 설치 - CM 설치 및 CDP 구성 보호되어 있는 글입니다. 공감수 0 댓글수 0 2021. 11. 23.
  • Cloudera Manager 설치 - 사전 준비 사항 보호되어 있는 글입니다. 공감수 0 댓글수 0 2021. 11. 23.
  • Hadoop 많이 들어보았고 이제는 익숙해진 사람도 많을 것 같습니다. 그래도 이 생태계라 불리는 것들 안에 어떤 component가 속해있는지, 각자 어떤 역할을 하는지 정리해보고자 합니다. 이를 위해서는 우선 하둡이 무엇인지 부터 알아야합니다. Hadoop Big data시대가 도래하면서 하나의 서버를 scale up 하여 사용하는 것은 불가능하거나 비효율적이게 되었습니다. 이에 scale out, 즉 여러 commodity computer를 cluster하여 사용하는 것이 일반적이게 됩니다. 그러면 이러한 cluster에서 data를 분산해서 저장해주고, 이들을 처리하는 함수가 필요합니다. 이를 가능하게끔 만든 것이 바로 hadoop 입니다. data를 분산해서 저장해주는건 HDFS, 이를 처리하는 건 MapR.. 공감수 0 댓글수 0 2021. 11. 7.
  • Time to Shop for Valentine’s Day : Shopping Occasions and Sequential Recommendation in E-commerce 논문 리뷰 글또 잡담 : 글감을 정하는게 어려워서 면접이 있던 지난번에는 패스권을 썼었다. 그냥 글 쓸껄 이번주는 더 바쁘넴! 이번주에는 뭘 쓸까 고민하다가 기존에 논문리뷰를 하고 싶다고 했으니 한번 작성해보자고 다짐했다. 내 첫 논문리뷰 포스팅인데, 부끄러워 하기만 하다가 평생 포스팅을 못 할 수도 있단 생각이 들어서 용기내어 해본다! 추천시스템에 관심이 많고, 관련 면접 준비하다가(요즘 내 모든 일정은 면접 위주로 돌아가서) 읽은 논문이었다. 나름 자세히 뜯어가면서 읽어보았으니 한번 리뷰를 해보자! 논문에 나오는 용어를 먼저 정리해보고 들어가자. Intrinsic preference 개인의 보편적이고 전반적인 취향을 반영한 구매기록 Global Occasion 대중적인 이벤트 즉 발렌타인데이나 어버이날, 크리스.. 공감수 0 댓글수 0 2021. 8. 29.
  • [27일차] 특강 이튿날 이튿날이 맞나?하튼 오늘은 캐글과 풀스택 ml 엔지니어에 대한 특강을 들었다. 캐글은..정말 상 한번 타보고싶다. p stage에서 정형 데이터 듣기로 마음 굳혔다. 풀스택은...난 잘 모르겠다. 하고는 싶은데 막 엄청 재미있어할 것 같지가 않다. 서버의 첫걸음이 안좋았어서그런가..하지만 언제나처럼 염두에 두고 있어야겠다. 공감수 0 댓글수 0 2021. 3. 3.
  • [26일차] AI 커리어 바람 소리가 너무 심해서 잠을 못잤었다. 심심해서 클하에 들어갔는데 데이터분석 잡담이 펼쳐지고 있더라. 들어가서 듣다가 두시반에야 잤는데 오늘 특강 내용과 연관지어 생각할 부분이 많아서 참 운이 좋았다고 생각했다. 바람아 땡큐! 그래서 클하내용과 특강 내용 중 까먹지 않았으면 하는걸 정리하자면 1. 아무래도 뛰어난 역량이 이력서 상에서 드러나지 않는다면 학벌과 학위를 볼 수 밖에 없다. 2. 지금 개발자 몸값이 오르고 부흥기 인것은 과거 몇 년간 전화기가 유행했었기 때문이다. 개발자의 공급이 적다고 느껴지는 이유. 3. 캐글과 공모전에서 성과를 보이면 된다..다만 ... 고인물 파티라서.. 차라리 대학원 진학이 더 쉬운 선택지일수도..이건 끊임없이 고민하게 된다 정말.. 4. 논문 구현 스터디를 해보자 .. 공감수 0 댓글수 1 2021. 3. 3.
  • [21일차] 그래프 시이작 벌써 21일...ㅇㅁㅇ 오늘은 간단했따 아주 좋다 (뒤에 코드부분은 아직 작성을 못했다) 한페이지로 정리해보았는데...다 담겼을지 한번 봐보자. 그림에 담긴건 📝, 안담긴건 ❎표시를 할거다 왜냐면 내맴 📝Graph는 Network라고도 부르며 정점(vertex) 노드(node) 간선(edge, link)로 이루어진 수학적 구조이다. ❎그래프는 복잡계(complex system)의 구성 요소 간의 상호작용을 표현한거다. ❎친구관계, 전자 상거래 구매 내역, 정보통신 혹은 Web, 뇌의 뉴런 연결, 지식 그래프, 화학 분자, 단백질 상호작용, 세포간 유사도 그래포, 이미지 분해 등에 쓰인다. 📝A 그래프와 D그래프는 간선의 방향 유무를 나타낸다. A그래프는 협업 관계 혹은 페이스북 친구 그래프 등을 표현할 .. 공감수 0 댓글수 0 2021. 2. 22.
  • [18일차] 벌써...18일차..? 피곤해서 그렇지 내용은 진짜 재밌다. 단지 하루가 48시간이기만 하면 참 좋겠다. 오늘은 sequence to sequence에 대해서 자세히 다뤄본다. 어텐션은 지난번에 배웠었으니 간략하게 설명하고자한다. Seq2Seq with Attention 문장을 넣어서 문장을 받고싶어하는 모델이다. 기본적으로 encoder와 decoder로 이루어져 있는데, encoder에서는 input에 대한 hidden state vector를 계산하고, 해당 벡터를 decoder에 넣어서 이 벡터로 지지고 볶으면서 원하는 출력을 내보내고자 하는 것이다. 저기 가운데 thought vector 부분에서 encoder의 최종 hidden state vetor가 decoder의 input으로 들어가고 끝이다. 어제 코드에서도 .. 공감수 0 댓글수 1 2021. 2. 18.
    문의안내
    • 티스토리
    • 로그인
    • 고객센터

    티스토리는 카카오에서 사랑을 담아 만듭니다.

    © Kakao Corp.