본문 바로가기

반응형

아카이브

(42)
데이터 엔지니어 기술 면접 질문 정리 * 데이터 엔지니어 기술 면접 질문들에 대해 정리 * 자신의 이력서 기반된 질문이나, 데이터 엔지니어링&CS 에 관해 공통되는 질문들이 많기 때문에 회사별로 정리하진 않음 1. 자기 소개(or 커리어 패스) 게임 회사에서 총 7~8년 정도 경력 게임 서버를 하면서 웹서버나 디비같은 백엔드 전반적인 역량을 쌓았고, 레디스, 엘라스틱서치같은 nosql 경험 이후 데이터 엔지니어로 전향 및 다른 데이터 도메인에 적응 대용량, 비정형 데이터들을 다루기 위해 병렬, 분산, 배치 처리와 같은 개발이나 솔루션을 많이 사용 팀 작업의 히스토리 파악하는걸 중요시 그걸 기반으로 조직에 필요한 새로운 프로그램 개발이나 중요한 업무인데 우선순위가 높지 않아서 매번 밀리는 업무의 자동화 등 팀 전반적인 생산성에 도움이 되는 업..
[5.4] analyzer Analysis 정의 : 검색에 사용할 역색인을 생성/추가하기 위해서 text를 토큰화하는 작업. * 아날라이저는 index time 또는 search time 에 built-in 된거나 혹은, 인덱스 단위로 custom analyzer 를 적용할 수 있다. - index time analysis 예시 PUT my_index { "mappings": { "my_type": { "properties": { "title": { "type": "text", "analyzer": "standard" } } } } } -- search text"The QUICK brown foxes jumped over the lazy dog!" -- inverted index result [ quick, brown, fox, ..
[5.4] 데이터 자료형 [사전 지식] 인덱스에 매핑하는 방법은 크게 2가지 -> 인덱스 생성 과정 혹은 새로운 필드가 입력될 때. -> 후자의 경우 dynamic mapping 인데 성능적인 면이나, 기존 데이터 스키마를 벗어나면서 데이터를 집어넣는 상황이라는 것에 의문이 있어서 스킾함. [타입] - text (2.0 이전 es 에선 string) -> "analyzed" 인덱싱 되기 전에 term 단위로 쪼개는 analyer 에 의한 분석 과정을 의미(역색인). text 필드는 정렬이나 집계에 사용하지 않음. 옵션 boost: 검색어에 가중치 부여 eager_global_ordinals : 디폴트 false. 빈번히 집계에 사용되는 terms 라면 true 하는게 좋음 fielddata: 역색인 구조에서, 데이터 값을 집계,..
Line Messaging API 사용 * 코딩 -> 테스트 -> 배포 -> 테스트 단계에서, fpm warning | Fatal 로그 등 이슈가 생겨야지만 뒤늦게 에러 핸들링하는 문제가 생김. 최소한 테스트 단계 혹은, 이슈 사항을 푸시받아서 고칠 수 있는 계기가 필요. 그래서 Line Messaging API 를 이용해서 fpm 경고 이상의 이벤트가 발생시, 개발자 방에 에러 로그를 푸시하는 것을 구현. 삽질 후, 정리하는 간략한 절차. 1. Line Developer 에서 계정 생성후, Messaging API Service 를 등록. - 계정 생성, 서비스 등록 등 기본적인 내용은 쉽게 찾아 볼 수 있어서 어렵지 않았음. 2. ssl 인증서 준비 - Line Messaging API 서비스는 신뢰받는 SSL 인증서가 필요하기 때문. s..
블로깅전 url 기록 http://wishgone.tistory.com/91 http://blog.scottlogic.com/2016/11/22/using-rally-to-benchmark-elasticsearch.html https://www.elastic.co/kr/blog/announcing-rally-benchmarking-for-elasticsearch
gerrit 재설치 1편에서 세팅을 완료하고 nginx 프록시 세팅을 통해 gerrit 페이지가 잘 뜨는건 확인하였지만 이메일 등록에서 막혀버림.. 에러로그는 크게 두가지였는데.. 1. 입력한 smtp 서버 인증에 실패하였다. 2. smtp ok, but parse error?? 기존 설치를 지우고 (추가로 깔았던 sendmail 도 필요 없었다) 최신 버전으로 재 설치&설정 몇가지 변경을 통해 메일 인증에 성공하였다. (페이지 ui도 조금 바뀌었음) 우선 최신버전으로 깔고 나서 gerrit_path/bin/gerrit.sh 을 구동시키면 나오던 워닝과 에러 로그도 사라졌는데 이유는 잘 모르겠다.. 아마 최신 버전이 아닌 gerrit + 설치 과정에서 추가 플러그인 호환이 잘 안되었던 걸까.. 아무튼, 설치 옵션은 1편과 ..
코드 리뷰 도구; gerrit (기본 설치) install environment;centos7, nginx, wget, java 1-8-0-openjdk, mysql## one of essential repositories for gerrit, I'll use git. yum install git## java install(must be >= 1.7) yum install java-1.8.0-openjdk-devel.x86_64## mysql install ## gerrit 에서 사용할 database 생성mysql -u root -p... create database gerritdb; ## gerrit download&install wget http://gerrit-releases.storage.googleapis.com/gerrit-2.9.2...
깃 개념들 플러밍 명령 - low level 명령, git의 기초적인 근간 포셀레인 - high level git init (깃 초기화) 를 하게 되면 .git 하위 디렉토리를 생성한다. 그 하위 항목에는, Hooks - 깃 명령과 명령에 주입할 수 있는 사용자 정의 스크립트. hook_name.sample Info - 깃에서 추적하는 파일들 중에서 제외된 파일 목록들을 기록Config - 설정 파일Description - gitweb(깃 설치시 제공되는 패키지) 이 있고, 깃 저장소를 위한 웹 인터페이스 설정Objects - 깃으로 유입되는 모든 데이터는 blob, trees, commits, tags 객체로 분류된다.Blob - data 자체의 바이너리 데이터들Trees - 트리 개체는 컨텐츠 구조, 디렉토리의..

반응형