Machine Learning Research Scientist

Seoul
Hyperconnect – AI/ML 직군 집중채용 /
Full-time /
Hybrid
하이퍼커넥트 AI Lab은 사람과 사람 사이를 연결하는 서비스에서, 기존의 기술로는 접근하기 어렵지만 머신러닝 기술을 통해 풀 수 있는 문제들을 찾아내고 해결하여 사용자 경험을 혁신합니다. 이를 위해 영상/음성/자연어/추천 등을 포함하여 다양한 도메인의 수많은 모델을 개발하고, 모바일 및 클라우드 서버를 통해 안정적으로 제공하면서 마주하는 연구 주제들을 풀어내어 우리가 만들어 내는 기술이 실제 서비스의 성장에 기여하는 것을 목표로 합니다.

이러한 목표 아래 하이퍼커넥트 AI Lab의 ML Research Scientist는 아자르, 하쿠나 등 하이퍼커넥트의 여러 제품들에 기여하는 머신러닝 기술들을 수년간 발전시켜 나가고 있으며, 이렇게 축적된 기술들을 다양한 글로벌 비즈니스 서비스에도 손쉽게 활용하기 위한 방안을 연구하고 있습니다. 

ML Research Scientist는 방대한 ML 지식을 바탕으로 서비스의 성장에 기여하는 다양한 머신러닝 모델들을 연구합니다. 서비스 내에 존재하는 다양한 비즈니스 문제들을 명확한 형태의 문제로 정의하고, 이를 해결할 수 있는 ML 모델들을 찾거나, 필요하다면 해당 문제를 해결하기 위한 새로운 모델들을 연구하고 개발하는 업무를 수행합니다. 또한, 특정 몇 개의 도메인에 국한하지 않고, 다양한 ML 내의 도메인을 넘나들며 비즈니스 문제를 해결할 옳은 방법을 고민하게 됩니다. 이 과정에서 모델 개발 및 배포, 개선 등을 담당하는 ML Engineer들과 적극적으로 협업하여 실제 연구한 내용을 Productionize합니다. 일하는 모습에 대한 조금 더 자세한 이야기는 다음의 내용을 참고하시면 좋습니다.

AI in Social Discovery (Blending Research and Production)
[How AI Lab Works] Head of AI - Shurain 인터뷰

연구의 결과물을 정리하여 논문 혹은 코드로 공개하는 것 또한 팀 목표 중 하나입니다. 제품에 사용하기 위한 목적으로 머신러닝 모델을 만들다 보면, 기존 연구로는 부족한 경우가 많습니다. 부족한 부분을 채우기 위해 진행된 연구의 결과물을 프로젝트 참여자들이 모두 함께 협업하여 연구의 의미 있는 부분을 정돈하고 가능하다면 코드와 함께 공개합니다. 그 결과, 지금까지 아래와 같은 대외적 연구 성과를 거둘 수 있었습니다.

• 2023년 TiDAL: 효율적인 학습 과정의 모델 행동에 기반한 액티브 러닝 기법 ICCV 2023 게재
• 2023년 모더레이션 환경에서 여러 분류 기준을 동시에 만족하기 위한 문턱값을 잡는 연구 WSDM 2023 게재
• 2022년 대화 생성에서의 의미적 다양성을 높이는 연구 EMNLP 2022 게재
• 2022년 레이블 노이즈가 심한 환경에서 효과적으로 학습하는 방법 ECCV 2022 게재
• 2022년 타깃 캐릭터의 몇가지 발화만을 이용하여 타깃 캐릭터를 모방하는 챗봇연구 NAACL 2022 게재
• 2022년 대화 생성 모델에서 예시를 활용하여 성능을 높이는 연구 ACL 2022 Workshop 발표
• 2022년 모바일 환경에서 오디오 분류를 위한 distillation 기술 연구 ICASSP 게재
• 2021년 클릭률 예측을 위한 중요도 보존이 가능한 피쳐 정규화 연구 ICDM Workshop Best Paper 수상
• 2021년 Tabular Learning 기반 효율적인 Click-Through Rate Prediction 모델 ICLR 2021 Workshop 발표
• 2021년 효율적인 Retriever기반 Chatbot을 위한 Large-Scale Generative 모델 활용 연구 EMNLP 2021 게재
• 2020년 Long-tailed Visual Recognition 문제를 Label distribution shift 관점에서 해결하는 기술 CVPR 2021 게재
• 2020년 퓨샷 러닝을 통한 Text-to-Speech(TTS) 기술 INTERSPEECH 2020 게재
• 2019년 퓨샷 러닝을 통한 안면 재현 기술 AAAI 2020 게재
• 2019년 모바일에서 빠르게 동작하는 키워드 스팟팅 모델(TC-ResNet) INTERSPEECH 2019 게재
• 2019년 모바일 환경에 최적화된 경량 이미지 세그멘테이션 모델(MMNet) 아카이브 업로드
• 2018년 저전력 이미지 인식 대회 (LPIRC) 2등

ML 연구가 잘 진행되기 위해서는 딥러닝 학습을 위한 인프라도 잘 갖추어져야합니다. 하이퍼커넥트에서는 ML Engineer들이 충분히 모델 개발 및 실험을 진행할 수 있도록 자체적인 딥러닝 연구용 클러스터를 구축하여 활용하고 있습니다. DGX-A100 20대로 구성된 클러스터(총 160대의 A100 GPU)를 포함한 다양한 on-premise 장비들을 연구개발에 활용할 수 있습니다. 추가적으로, 프로덕션을 위한 파이프라인, 데이터 수집 및 전처리와 서빙은 Kubeflow pipeline을 비롯하여 BigQuery 등을 적극 활용 중입니다. 또, ML 모델의 제품화를 도와주실 다양한 Software Engineer(백엔드/프론트엔드/DevOps/MLSE)분들과 함께 일하고 있습니다. 


업무 내용

ML Research Scientist는 하이퍼커넥트가 다루고 있는 ML 도메인 전반에 걸쳐 ML 기술을 연구하고, 개발하는 업무를 담당하게 됩니다.
• 방대한 ML 지식을 바탕으로 제품의 문제를 해결할 수 있는 가장 적합한 ML 방법론을 제안하고 연구합니다.
• ML Engineer와의 협업을 통해, 이러한 방법론을 실제로 활용하여 Productionize할 수 있는 방법을 고민합니다.
• 이러한 문제 해결 과정을 논문화하여 공개하는 과정 및 특허화하는 과정을 리딩합니다.
• SoTA ML 기술들에 대한 현황을 꾸준히 파악하고, 이를 AI 조직 내에 전파합니다.

하이퍼커넥트 AI 조직이 주로 다루고 있는 ML 분야들은 다음과 같으며, 하이퍼커넥트의 ML Research Scientist는 모든 분야에 걸쳐 선행기술 연구활동을 리딩하는 업무를 수행합니다.


[Recommendation]
제품에 포함되는 다양한 추천 문제를 해결함으로써 사용자들에게 보다 나은 경험을 제공하고, 궁극적으로 장기 매출 향상에 기여합니다. 

• 신규 사용자에게 좋은 경험을 주기 위한 cold-start 추천 문제(session-based recommendation, graph-based recommendation, contextual bandit과 같이 few-shot 데이터만으로도 사용자의 선호를 파악할 수 있는 시스템, 신규 사용자에 대한 데이터가 부족할 때 신규 사용자에 대한 추천 성능을 향상시키기 위한 학습 방법 등)
• 양쪽 사용자가 모두 만족할 수 있는 상호(reciprocal) 추천 문제
• 실시간으로 변경되는 추천 후보군에 대해 매우 빠른 시간 안에 추론을 수행하는 real-time 추천 문제 (session-based recommendation, graph-based recommendation, reinforcment learning, …)
• 여러 목표 지표들 사이의 trade-off를 고려하는 추천 문제
• 장기 지표를 향상시키는 1차 목표 지표를 찾는 문제

[Trust & Safety]
사용자들의 만족스러운 경험을 위해 콘텐츠가 어떤 내용을 담고 있는지 이를 이해하는 다양한 기술 및 이러한 정보를 활용하는 연구 개발을 수행합니다. 영상이나 음성 및 자연어로 구성된 비정형 데이터를 입력으로 받아들여 의사결정을 내릴 수 있도록 유용한 정보를 추출합니다.

• 모바일 환경에서 빠른 속도를 낼 수 있는 경량 모델과 최적화에 대한 문제
• 효율적이고 label의 중요도를 조절할 수 있는 multi-task 혹은 multi-label 모델에 대한 문제
• Partial multi-modal 데이터를 활용하는 문제
• 스트림으로 유입되는 사용자 행동 로그와 content understanding 결과에 기반한 실시간 이상 사용자(ex. 스팸/가짜 계정)를 탐지하는 문제
• Active learning을 통한 효율적인 데이터 라벨링 방법 혹은 모델 학습에 필요한 데이터를 줄일 수 있는 core-set selection 방법

[Generative AI]
다양한 생성형 AI 연구 개발을 통해 사용자들에게 이전에 없던 새로운 경험을 제공합니다. 서비스 내에서 사용자들이 개인화된 컨텐츠를 쉽게 생성하고 자기 표현을 할 수 있는 도구를 만들며, 생성형 AI를 활용해 새로운 기능을 개발합니다. 

• 사용자가 원하는 대상의 이미지를 생성할 수 있는 개인화된 이미지 생성 모델 개발
• 대규모 언어모델(Large Language Model)을 활용한 새로운 피쳐 개발, 이를 위한 대규모 언어 모델 학습, 튜닝 및 서빙
• 큰 규모의 생성형 모델이 대용량 트래픽을 안정적으로 처리할 수 있도록 모델 개발 및 최적화
• 생성형 모델을 활용하여 서비스 내 사용자 경험을 혁신할 수 있는 방법에 대한 연구와 고민

[공통]
공통적으로, 제품에 포함되는 AI 기술을 연구하기 위한 노력들도 꾸준히 진행하고 있습니다. 실제 프로덕션 환경에서는 Kaggle과 같은 정제된 데이터셋이 존재하지 않으며, 대부분의 경우 매일 새로운 데이터가 시스템에 유입됩니다. 어제보다 오늘 더 나은 모델을 자동으로 생성하는 Flywheel을 구축하는 것을 지향합니다.

• Highly imbalanced 또는 noisy label 데이터를 다루는 방법
• 기존에 deploy된 모델을 지속적해서 개선할 수 있는 continual/life-long learning 방법
• 모델 task 요구사항의 변화와 신규 서비스에 대응할 수 있는 meta-learning 방법
• Large scale model을 학습하고, 실제 서비스 환경에서 초당 수백 또는 수천 개의 입력을 안정적으로 처리할 수 있도록 할 수 있는 modeling, optimization, distillation 방법


지원 자격

우리는 하이퍼커넥트의 ML Research Scientist로서 광범위한 AI/ML 관련 지식을 갖춘 분을 찾고 있습니다. 저희는 AI/ML이 매우 범용적인 기술이라고 믿기에, 특정 도메인에 국한되지 않고 제품 조직의 요구에 따라 다양한 ML 기술을 연구하고 제품화할 수 있는 업무 처리 능력이 뛰어난 분을 원합니다. 따라서 기존에 경험이 없던 분야에서도 빠르게 최첨단 결과를 달성하는 능력을 갖추거나 주변 동료들이 새로운 도메인에서 성과를 이끌어낼 수 있도록 지원하는 능력을 요구하고 있습니다. 이를 위해 지원자는 ML 기술의 최신 동향을 파악하고 전달하며, 조직 전체의 수준을 높일 수 있는 역량이 요구됩니다. AI/ML이나 소프트웨어 엔지니어링에 대한 높은 수준의 이해와 경험은 이러한 역량의 좋은 징표입니다. 구체적으로 최소 한 가지의 다음 역량을 보유한 분을 찾고 있습니다.

• AI/ML 전반에 대한 이해와 특정 도메인에 대한 깊이 있는 지식을 가진 분 (예시: Information Geometry에 대한 강의가 가능한 분)
• 보통의 방법으로 풀 수 없는 엔지니어링 제약 조건을 AI 모델링 능력과 소프트웨어 엔지니어링 전반에 대한 깊은 수준의 이해를 바탕으로 해결할 수 있는 역량을 갖춘 분 (예시: GPU 프로그래밍 등 저수준 프로그래밍에 능통하여 off-the-shelf로 지원되지 않는 학습 최적화 기법을 제안 및 구현할 수 있는 분)
• AI와 제품 결합에 대한 깊이 있는 고찰과 경험을 가진 분 (예시: AI flywheel이 실제로 작동하는 제품을 만드는 데 성공한 경험을 가진 분)

또한 하이퍼커넥트의 ML Research Scientist로서 필요한 다른 역량은 다음과 같습니다.

• 서비스 내 비즈니스 문제를 ML 문제로 전환하고 해결할 수 있는 솔루션을 제안할 수 있는 분
• 논문 작성 과정 전체에 대한 이해와 통제력을 가진 분
• 국적과 무관하되, 한국어로 원활한 의사소통이 가능한 분

우대 사항

    • 실제 제품에 AI 기술을 통합하고 제품의 주요 지표를 유의미하게 향상시켜 본 경험이 있으신 분
    • 기계학습 분야에서 좋은 연구 트랙 레코드를 가지고 계신 분 (기계학습 관련 주요 학회 및 저널 개제 등)
    • 강화학습(RL)이나 인과추론(Causal Inference) 분야에서의 연구 경험이 있으시거나, Real-world 문제를 풀어보신 분
    • 백엔드 개발 경험 혹은 클라이언트(Android, iOS) 개발 경험이 있으신 분
    • 기계학습 관련 오픈 소스 개발에 참여해 본 경험이 있으신 분
    • 영어에 능통하신 분

Hiring Process

    • 고용 형태: 정규직
    • 채용 절차: 서류전형 > 코딩테스트/사전과제 > Recruiter Call > 1차 면접 > 2차 면접 > 3차면접(해당 시) > 최종합격 (일부 순서가 변경될 수 있습니다.)
    • 근무 시간: 근무시간을 자율적으로 선택하는DIY(Do It Yourself) 근무제 (단, 병무청 복무규정에 따라 산업기능요원, 전문연구요원은 시차출근제 적용 - 오전 8시 ~ 11시 사이 출근)
    • 지원 서류: 자유 양식의 상세 경력기반 국문 또는 영문이력서(PDF)

etc

    • 하이퍼커넥트는 증명사진, 주민등록번호, 가족관계, 혼인여부 등 채용과 관계없는 개인정보를 요구하지 않습니다.
    • 수습기간 중 급여 등 처우에 차등이 없습니다.
    • 제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
    • 필요 시 사전에 안내된 채용 절차 외에도 추가 면접 전형이 진행될 수 있습니다.
    • 필요 시 지원자의 동의 하에 평판조회 절차가 진행될 수 있으며, 평판조회 결과에 따라 채용이 취소될 수 있습니다.
    • 이 포지션은 산업기능요원 보충역 편입/전직, 전문연구요원 현역 편입/전직, 전문연구요원 보충역 편입/전직 채용이 가능합니다. 병역특례요원의 경우, 병역특례 관련법에 따라 복무관리를 진행합니다. (*전문연구요원 현역 신규편입 TO가 선착순 마감될 수 있으며, 전형 진행 중 TO가 마감될 경우 별도 안내 드리겠습니다.)


하이퍼커넥트가 채용하는 포지션에 지원하는 경우, 개인정보 처리에 관하여서는 본 개인정보처리방침이 적용됩니다: https://career.hyperconnect.com/privacy