Data Engineer

Seoul, South Korea /
1. Korea HQ – Data /
Permanent
/ On-site
콴다 팀은 문제 검색, 질문답변, 맞춤형 개념학습 콘텐츠를 제공하는 AI 교육 플랫폼 콴다(QANDA)를 운영하고 있습니다. 또한, 콴다과외, QANDA Study 등 진출 국가에 적합한 신사업을 만들어 나가고 있습니다.
지난 7년 간 전 세계 모두에게 동등하고 효과적인 교육을 제공한다는 비전 아래 Google, SoftBank Ventures Asia 등 글로벌 최고의 투자기관으로부터 누적 1,430억원의 투자 유치, 누적 가입자 수 8,000만, MAU 1,300만, 글로벌 50개국 진출, 20개 이상 국가 교육 차트 1위라는 숫자를 만들어냈습니다.
스마트하고 열정적인 팀원들과 함께 Global No. 1 Education Platform을 향한 퀀텀 점프를 함께하실 팀원을 찾고 있습니다.

- 회사 홈페이지: https://mathpresso.com/
- 회사 소개 자료: https://bit.ly/40j9Sak
- 팀블로그: https://blog.mathpresso.com/
- 채용 페이지: https://recruit.mathpresso.com/
- 유튜브 채널: https://bit.ly/2ZQezi7


Data Team은 콴다 팀이 목표를 달성하는 데 필요한 데이터를 적절히 사용할 수 있도록 서포트하고, 서비스/비즈니스가 올바른 방향으로 나아가고 있는지 데이터 관점에서 점검합니다.

데이터 웨어하우스로 Bigquery를 사용합니다. Bigquery의 뛰어난 성능을 활용하여 ETL 보다는 ELT paradigm 으로 데이터 파이프라인을 구현하고 있습니다. Extract/Load 단위 작업은 Apache Spark 어플리케이션으로 개발하여 AWS Fargate 로 실행합니다. 단위 작업들의 Workflow Orchestration 도구로 Apache Airflow (Cloud Composer) 를 사용합니다. 이외에도 로그 수집을 위해 Amazon API Gateway 와 Amazon Kinesis 서비스를 사용합니다. BI 는 Holistics 라는 서비스를 사용합니다.

- 그 많은 데이터를 누가, 어떻게, 왜: https://bit.ly/3wrtQCr
- Data Team 인터뷰: https://bit.ly/3iIsSgk

합류하시면 함께 풀어나갈 문제들입니다.

    • 데이터 파이프라인/데이터 웨어하우스 유지보수 : 프로덕트가 계속해서 성장함에 따라 수집해서 관리하여 분석에 활용할 데이터도 계속해서 늘어나고 있습니다. 이를 위해 데이터 파이프라인과 데이터 웨어하우스도 계속해서 관리되고 발전해야합니다.
    • 실험 (A/B 테스트) 데이터 집계와 분석 practice 통일 : 실험 플랫폼을 구성하는 것을 궁극적인 목표로, 첫 단계로, 목적 조직들마다 조금씩 다르게 이뤄지고 있는 (Firebase A/B Testing, 클라이언트 단에서 샘플링, 서버 단에서 샘플링 등) 실험 집행 practice 를, best practice 로 통일 시키려고 합니다. control/variant 값과 conversion event 등 실험을 정의할 때 필수적으로 & 공통으로 정의되는 데이터들을 수집하는 테이블의 스키마를 통일하고, 이를 사용하는 실험 결과 분석도 일관된 방식으로 이뤄질 수 있도록, 필요한 시스템을 구성하는 것을 목표로 합니다.
    • Data Catalog/Data Discovery : Production RDBMS, Firebase Analytics SDK 클라이언트 로그, 서버 로그, Adjust 같은 각종 서드파티 데이터 등 다양한 소스의 데이터가 데이터 웨어하우스로 모이고 있습니다. 현재 콴다가 어떤 데이터들을 수집하고 있고, 어떻게 활용되고 있는지 탐색을 도와주는 적절한 시스템의 필요성이 점점 더 커지고 있습니다. 당장에는 Bigquery 에서 Table/Column Description 을 어떻게 잘 관리할지를 고민하고 있습니다.
    • Data Engineer가 아니더라도 원하는 누구나 데이터 마트 테이블을 추가/수정 할 수 있도록 시스템 구성 : 원하는 데이터를 얻기 위한 SQL 은 다양한 모습일 수 있겠으나, ad-hoc 한 쿼리들이 계속 생겨나는 것을 방지하고, 적절히 추상화 된 데이터 모델 = 데이터 마트 테이블들이 정립되고 이를 재사용하는 것을 지향하는 것이 맞는 방향일 것입니다. 현재도 Data Analyst 를 비롯해 많은 Domain Owner 들이 데이터 모델에 대해서는 계속 고민하고 있으나, 이를 데이터 마트 테이블로 구현하는 것은, Airflow 에서 DAG/Task 작업이 필요하여 진입 장벽이 있기에 Data Engineer 만 하고 있습니다. 이를 개선하여, 데이터 모델을 정립한 당사자가 직접 데이터 마트 테이블까지 작업할 수 있는 방법에 대해 고민하고 있습니다. 최근에 업계에서 점점 더 많이 얘기되고 있는 DBT 등 여러 방법들을 탐색하고 있습니다.
    • Airflow 직접 운영 : Managed Airflow 서비스인 Cloud Composer 를 활용해서 쉽고 빠르게 Airflow 환경을 구성할 수 있었습니다. 그러나 1년여간 사용하면서, Managed Service 이기에 어쩔 수 없는 몇가지 아쉬움들이 있었습니다. 그래서 뛰어난 Data Engineer 분들이 더 합류한다면 Amazon EKS 등의 Kubernetes 환경에서 Airflow 를 직접 운영하고자 합니다.

이런 분이면 좋겠습니다.

    • ETL/ELT 데이터 파이프라인 구성에 대해 자신만의 철학과 best practice 를 가지고 있고, AWS/GCP 같은 public cloud 에서 제공하는 서비스들을 적절히 활용하여 구현할 수 있는 분이면 좋겠습니다.
    • "Data-Driven 한 조직" 에 대한 자신의 생각을 가지고 있고, 이를 달성하기 위해 Data Engineer 로서 어떤 것들을 할 수 있는지에 대해 생각을 가진 분이면 좋겠습니다.
    • Data Analyst 등 데이터를 활용하는 다른 직군/조직의 동료들이 어떤 문제를 풀기 위해 데이터를 어떤 식으로 활용하는지를 이해하고 있고, 단순히 부탁 받은 데이터 관련 작업을 처리하는 것이 아니라 함께 고민하여 더 나은 방향으로 나아갈 수 있도록 커뮤니케이션 하는 분이면 좋겠습니다.
    • GA/GTM/Firebase/Amplitude/Mixpanel 같은 Analytics 도구와 Appsflyer/Adjust 같은 MAT 도구와 Holistics/Tableau/Mode Analytics 같은 BI 도구 등, 데이터 시스템 구성에 유용하게 쓰일 수 있는 다양한 서드파티 도구들이 해주는 역할과 이들을 어떻게 결합하여 활용하면 좋을지에 대한 그림을 가지고 있는 분이면 좋겠습니다.

[채용 절차]

    • 전형 절차: 서류 전형 → 전화 면접 → SQL Test/코딩 테스트/1차 면접 → 2-3차 면접 → 최종 합격
    • SQL Test/코딩 테스트/1차 면접 그리고 2-3차 면접은 각각 하루에 연달아 진행됩니다. (총 2일 진행)
    • 포지션에 따라 과제 전형 혹은 추가 면접이 진행될 수 있습니다.

[기타 사항]

    • 제출 서류: 자유 양식의 국문 이력서(PDF)
    • 근무 형태: 정규직 (수습기간 3개월)
    • 근무 지역: 서울시 강남구 선릉로 428, 17층

[유의 사항]
- 이력서에 지원 분야의 경력 사항을 최대한 구체적이고 상세히 기술해 주시길 바랍니다.
- 모든 서류는 PDF 파일로 제출해주시기 바랍니다.
- 입사지원서 내용에 허위사실이 판명될 경우 입사가 취소될 수 있습니다.
- 채용 시 마감되는 포지션입니다.