Kafka,blockchian confer

Apache Kafka

  • 이벤트 브로커
  • pub/sub모델을 구현한 분산 메시징 플랫폼
  • 어플리케이션간 이벤트(메시지 교환하기 위해 사용)
  • 소스 어플리케이션과 타겟 어플리케이션의 결합도 낮추기 위함
  • 메시지 그룹과 비교됨
  • 이벤트를 브로커와 파일시스템으로 저장(데이터 레이크 역할 가능)
대규모 시스템에서 사용한다 보면 된다.

실시간 로그분석을 위해 kafka를 쓰기도 한다.

로그 파이프라인 #1

  • 시스템 로그는 파일시스템, 사용자데이터는 데이터베이스로 관리
  • 하나의 데이터베이스에서 사용자 트래픽과 분석 트래픽 처리
  • 분석 트래픽이 사용자에게 영향을 끼침.

로그 파이프라인 #2

  • 사용자를 위한 데이터베이스와 분석용 데이터 베이스를 분리.
  • 분석용 데이터베이스가 실시간 업데이트 되지 않음.

로그 파이프라인 #3

  • 서드파티 플랫폼을 통한 데이터 추가
  • 분석용 데이터 베이스의 데이터가 실시간으로 업데이트 되지 않음
  • 데이터 분석을 위한 전처리 과정 불가능(서드파티와의 통합)

ETL(Extract-Transform-Load)

주문이 완료된 아이템, 주문이 취소된 아이템

전처리시 고려사항.

  • 이 과정을 위해선 데이터레이크 , 데이터 웨어하우스가 필요

  • 데이터 레이크 - 실시간으로 ETL과정 이뤄져야
  • 데이터 웨어하우스 - 실시간 업데이트해야됨.

ETL+ 데이터 웨어하우스

  • 데이터 레이크(kafa)이 데이터를 목적에 맞게 ETL과정 거쳐 웨어하우스에 적재해야함.
  • 실시간 로그 분석도 위해 데이터 웨어하우스 써야함.

데이터 웨어하우스

  • 페타바이스 오가는 스토리지 및 SQL 쿼리
  • 데이터 전처리 및 학습. 예측 하는 머신러닝 기능
  • 완전 관리형 서버리스

ETL 방법

1 . kafak connect

2 . kafka streams

  • 데이터를 스트림으로 처리하기 위한 라이브러리(java)

3 . 서드파티툴(ex.구글 데이터플로우 등)

  • 비용적인 부분이 든다

4 . 로그 데이터 로그

카프카로 모든 데이터 모아두고 스트림 과정 가치고 big쿼리 던지면 정제된 데이터 남고 데이터 분석

  • 정제된 데이터를 bigquery가 아닌 다른 데이터베이스에서 활용하려면 엄청 무거워진다.

정제된 데이터 처리1

  • 다중 스트림 서버 -목적에 맞게 스트림 처리

정제된 데이터 처리2

  • Sink Connector

  • 에러 처리
  • user create reply 같은거로 던져서 확인하는 그런거도 있었는데 reply토픽, 에러토픽 이런식으로 씀.



kafka로 메시지 전송하거나 하기 위해 ETL과정 거친다.



blockchain

해시함스룰 이용해 비트코인은 그 해시함수로 이뤄진 인코딩 된 값들을 맞춰가는 과정.

PKI

PKI(Public Key Infrastructure) 또는 공개키 기반구조는 디지털 증명서의 생성, 관리, 배포, 사용, 저장 및 파기, 공개키 암호화의 관리에 필요한 역할, 정책 등 일련의 절차들을 집합한 것이다

bip 39 online

블록체인은 코인만 쓰나? 다른 건?

  • 비트코인 논문 한글

erc-20은 그나마 블록체인 중 비트코인 이외로 쓰고있는 블록체인

비트코인도 버전 1을 아직 달아본 적이 없다. 어디까지나 개발하는 관점

블록체인은 크게 보면 단순하게 돌아가는 프로토콜 약속 체제





© 2021.03. by yacho

Powered by github