[N지니어스] 모델연구팀 정시앙 팀장님을 만나 보았습니다!

NHN 피플 · 2021-02-16 13:53:47.673

게임을 넘어 간편결제와 기술, 커머스와 콘텐츠 사업까지. IT기반의 전 영역을 확장하는 NHN의 성장 동력엔 ‘N지니어스’, 바로 뛰어난 개발자들이 있습니다.

<N지니어스> 코너에서는 NHN 내 다양한 연구 부서에서 근무하는 개발진의 생생한 이야기를 통해

직무와 필요한 역량 등을 소개하고, 서류, 면접 전형까지 활용할 수 있는 꿀팁들을 취준생 여러분께 공개합니다.

NHN 입사를 꿈꾸는 개발자라면 필독하세요!

최근 IT 서비스에 다양한 머신러닝 기술들이 적용되며, 이를 기반으로 한 개인화 추천 기능이 날로 고도화되고 있습니다. 사용자의 피드백을 보다 정교하게 분석해 서비스, 마케팅, 광고 쪽에 활용하고 있고, 이런 과정들이 실제 서비스 성과나 생존과 직결되기도 합니다.

NHN도 『회사와 관련된 서비스를 더욱 가치 있게 만들기 위해』 AI에 대한 기술개발을 진행하고 있고, 크게 이미지 AI, 비디오 AI, 음성 AI를 비롯해 NLP(자연어처리), 침입 탐지, 광고 분야까지 다양한 AI기술들을 개발하고 있습니다.

이번 포스팅에서는 AI 연구의 일환으로 머신러닝, 통계적 예측 모델을 만들고, 이를 시스템으로 구현해 서비스에 적용하고 있는 곳, ‘데이터사이언스’라는 업무를 수행하고 있는 NHN 모델연구팀을 소개 드리고자 합니다.

데이터사이언스는 어떤 일을 하고, 어떤 역량이 필요한지 등을 자세히 알아보기 위해 모델연구팀을 맡고 있는 정시앙 팀장님을 만나 직무 관련한 이야기를 들어보았습니다.

Q. 정시앙 팀장님. 간단히 자기소개 부탁드려요.

A. 안녕하세요. 저는 서버 개발자로 시작해 추천 시스템, 데이터마이닝 관련된 업무를 하면서 자연스럽게 머신러닝 같은 데이터 업무를 하게 되었습니다. NHN에서는 NHN벅스의 검색, 추천 엔진 쪽 업무를 하다가, 2년 전부터 검색센터 내 데이터사이언스 조직과 추천 엔진 조직이 합쳐진 모델연구팀이 생겨 합류하게 되었습니다.

Q. <모델연구팀>은 어떤 일을 하는 곳인가요?

A. 저희 팀에서 담당하고 있는 ‘데이터사이언스(모델연구)’ 업무는 머신러닝, 통계적 예측 모델을 만들어 예측 품질을 최대로 끌어 올리고, 이를 시스템으로 구현하여 다양한 서비스와 자사 비즈니스에 기여하는 역할을 수행하고 있습니다. 쉽게 말해 NHN이 서비스하고 있는 결제, 음원, 광고 등의 다양한 서비스를 제공하는 데 있어 개별 이용자들이 선호하거나, 유용하게 활용할 수 있는 개인화 추천 서비스를 고도화하는 방법들을 연구하고 있습니다.

<모델연구 프로세스>

Q. 서비스 관련한 구체적인 업무 성과나 프로젝트를 말씀해 주세요.

A. 몇 가지만 말씀을 드리자면, 먼저 광고 영역에서 타겟 광고 마케팅에 필요한 광고 클릭률 예측 모델, 무표 클릭 판별 모델, 타겟 알고리즘, 사용자의 데모그래픽 정보(성별, 연령대) 추정 모델 등을 제공하고 있습니다. 광고 클릭률 예측 모델의 경우, 특정 광고 클릭률을 사전에 예측하는 방법으로 예측 정확도가 높을수록 광고의 수익률을 개선할 수 있습니다. 그 외에 사용자 관심사를 예측하는 알고리즘이나, 사용자에 대한 정보를 모르는 상태에서 연령대나 성별 같은 인구통계학적 정보를 추정하는 모델도 만들고 있습니다.

또한, ‘learning to rank’ 머신러닝 방법을 적용해 페이코의 쿠폰 페이지에 노출되는 리스트를 개인화된 쿠폰 랭킹으로 제공하고 있습니다. 또한, 사용자의 피드백을 정교하게 분석해 쿠폰, 푸시 알림 등을 보다 효율적으로 진행할 수 있는 타겟팅 방법을 연구하고 있습니다. 그리고 음원 서비스 벅스에 ‘라디오’, ‘뮤직4U’ 서비스를 통해 사용자 로그 기반의 음악 추천 및 개인화 추천 기능을 제공하고 있습니다. 딥러닝으로 음악의 특성을 분석하고, 분위기와 스타일을 자동 분류하는 모델을 만들어 추천 기능에 활용하고 있습니다.

Q. ‘모델연구팀’ 일원이 되기 위해서 꼭 필요한 자격 요건이 있다면요?

A. 관련 업무 경력도 좋지만, 기본기와 문제 해결 능력을 중요하게 생각합니다. 데이터 사이언스에서의 기본기라는 것은 머신러닝 알고리즘 동작 원리를 잘 알고 있어야 하고, 통계 이론과 수학에 대해 이해하고, 논문 같은 자료를 보며 스스로 성장할 수 있는 능력이라고 생각합니다. 어느 정도 이론적 깊이가 필요하니 석사 이상의 학위는 도움이 됩니다.

데이터 사이언스라는 분야가 방대해 한 사람이 모든 것을 다 갖출 수는 없습니다. 저희는 팀으로서 각자가 가진 전문성으로 서로를 보완하고 돕는 형태로 일을 하려 하고 있습니다. 그래서 맡은 업무를 완수하려는 열정과 책임감이 필요합니다. 같은 팀뿐만 아니라 다른 기술팀이나, 기술 직군 외 다른 유관부서 사람들과 의사소통 하면서 협업하는 태도가 꼭 필요합니다.

데이터사이언스 업무에 적합한 지 판단하는 데 도움을 드리고자, 업무 단계별 과정 및 필요 역량을 세부적으로 소개 드리고 싶습니다. 저희 팀의 업무는 크게 <문제 정의>, <데이터 획득 및 이해>, <모델링 및 알고리즘 구현>, <적용 및 모니터링> 순으로 정리해볼 수 있는데요,

<문제 정의>라는 것은 어떤 분은 요리로 표현하기도 합니다. ‘요리를 할 때 필요한 재료들을 선별하고, 이를 가공해서 어떤 요리를 만들겠다’는 큰 그림이 필요합니다. 데이터 사이언스에서는 재료라는 것은 데이터가 되고. 여기에 어떤 과정을 거쳐서 제공할 결과물(요리)이 나올지 통찰력과 예측을 기반으로 염두에 두고 있어야 합니다.

그리고 <데이터 획득 및 이해> 과정인데요, 대용량 데이터에서 데이터셋을 가공해야 되니 보통 빅데이터 처리 플랫폼인 hadoop, spark에서 작업을 합니다. 데이터 엔지니어가 지원을 해주기도 하지만 직접 데이터를 처리하기도 합니다. 그래서 SQL이나 python, R 등의 언어로 데이터 처리를 위해 간단한 코딩 정도는 할 줄 알아야 합니다. 해당 데이터가 어떻게 해서 생성되었는지 이해하고 있어야 활용할 수도 있습니다. 이런 경우 IT 지식이나 서비스 지식이 있으면 전체 흐름을 이해하거나 관련 데이터 파악하는데 도움이 됩니다. 데이터의 분포나 어떤 특성이 있는지 파악하면서, 아주 극단적인 값이 나오거나 누락된 값이나, 오류가 없는지도 꼼꼼히 체크하는 검증 작업도 필요합니다.

<신규 모델 설계 과정>

이어 <모델링 및 알고리즘 구현> 과정에서 실제 예측을 위한 머신러닝이나 통계적 모델링을 수행합니다. 머신러닝 모델이 잘 동작할 수 있게 학습 데이터를 구축과 평가까지 신경을 써야 합니다. 예를 들어, 지원자의 합격 여부를 결정하는 채용 관련 AI 시스템이 있다고 가정해보겠습니다. 보통 IT기업에서 근무하는 사람은 남자가 여자보다 많을 수 있다는 인식을 기반으로 채용 시스템이 여자보다 남자에 가중치를 더 준다면 문제가 되겠죠. 이렇듯 머신러닝 시스템이 편견 없이 잘 동작하게 하려면 학습 데이터 구축 단계와 모델 평가부터 세심한 관찰과 디테일이 필요합니다.

요즘 딥러닝이 유행이지만, 저희가 다루는 데이터에서는 여러가지 이유로 딥러닝은 제한적 용도로 사용하고 있습니다. 예측 모델의 예측 품질과 속도 이슈를 보완하기 위해 새로운 알고리즘을 구현하거나 개선하기도 합니다. 예측 모델의 성능을 최대로 올리기 위해서는 알고리즘들을 직접 구현하지는 않더라도 동작 원리를 최대한 잘 이해하는 게 필요합니다. (Convex optimization 이론을 이해하는 것이 도움이 됩니다.) 그리고 모델이 예상과 다르게 동작하는 경우를 해결하기 위해서는 모델에 영향을 미치는 중요한 피처들을 파악하는 모델 해석 작업도 중요합니다. 실제 작업은 여러 차례 가설을 수립하고, 실험을 반복하기 때문에 실제 데이터로 업무를 진행해본 경험이 있으면 시행착오를 줄이는데 더 도움이 될 수 있습니다.

마지막으로 <적용 및 모니터링> 과정이 있는데요, 예측 모델을 서비스에 적용하기 위해서는 데이터 엔지니어가 참여한 가운데, 모델의 예측 결과 활용 방법과 재학습 방법을 전반적으로 고려해서 협의를 진행합니다. 예측 결과를 실시간으로 제공할지, 배치성으로 제공할지에 따라 다른 시스템과 연동 방법도 달라지고, AB 테스트까지도 고려해서 데이터 엔지니어와 관련 개발팀 연동 협의 작업도 진행합니다. 또한, 예측 성능이 떨어질 수도 있는지 확인하고 주기적으로 모델이 재학습이 필요한지 확인하고 재 학습하는 작업을 해야 합니다. 서비스의 품질을 수치적으로 확인할 수 있는 평가 척도를 마련하기도 하고, 저희가 작업한 모델이 실제로 개선 효과가 있는지 오프라인, 온라인 실험을 통해 평가합니다. 그리고 특정 요인이 서비스에 영향을 끼쳤는지 심층 분석하기도 합니다. 이런 과정에서 통계적 검정, 부트스트랩, 베이지안 추론, 인과 추론(causal inference) 같은 통계학적 지식이 필요하기도 합니다.

Q. 해당 업무가 IT분야에서 어떤 일을 추가로 진행해 나갈까요? 앞으로의 비전이나, 발전 방향을 간략히 말씀 주실 수 있을까요?

A. 앞으로 IT 서비스에 머신러닝 기술이 더 많이 추가되고, 개인화 기능도 더 발전할 것이라고 생각하고 있습니다. 그리고 마케팅, 광고 쪽에서는 마케터를 위한 자동화된 마케팅 시스템에 머신러닝 기능들이 더 긴밀하게 활용되며 고도화될 것 같습니다. 그래서 저희 팀도 응용 범위를 계속 넓히려고 관련 팀들과 같이 협의하고 고민하고 있습니다.

기술적으로는 사용자의 피드백을 머신 러닝 학습에 빠르게 반영하는 알고리즘들이 더 발전할 것 같습니다. 온라인 머신러닝, Multi Armed Bandit (MAB) 알고리즘 등이 해당되는데 저희팀도 관련해서 더 연구를 하려고 합니다. 딥러닝 기술 발전으로 인해 이미지, 텍스트 류의 데이터를 예측 모델에 추가로 활용하는 사례가 늘어나서 사내 관련 연구부서와 더 협력할 예정입니다.

예측 모델의 성능을 높이는 노력도 중요하지만 인과관계를 규명하는 일이 더 늘어날 것이라고 전망합니다. 예를 들어, 마케팅을 실시하고, ‘마케팅 덕분에 성과가 높았는지 실제 어느 정도 기여도가 있는지’ 등을 정량적으로 분석한다면 마케팅 관련 의사결정에 도움이 될 수 있습니다. 새로 적용한 서비스가 실제 서비스 활성화에 기여했는지도 측정할 필요가 있습니다. 그리고, 예측 모델이 얼마나 효과적인지 오프라인/온라인 실험으로 성과를 분석할 필요가 많은데요. 그러나 실험에는 비용이 들고 실험을 제대로 하지 못하고 사후에 분석해야 하는 경우도 있습니다. 이런 여러 가지 이유로 인과관계를 찾는 인과 추론 관련 업무가 계속 늘어날 것이라고 예상합니다.

Q. 팀장님이 업무를 해오시면서 가장 보람 있다고 생각했던 순간이 있을까요?

저희 팀의 업무는 IT 서비스의 사용자 반응을 바로 알 수 있어서 예측 모델을 적용한 결과를 바로 확인하기 쉽습니다. 저희가 작업한 모델로 인해 사용자들이 서비스를 더 잘 쓰게 될 때 보람을 느낍니다. 또한, 데이터사이언스 작업은 팀 단독으로 업무를 할 수 없고, 마케팅, 서비스 기획, 로그 데이터 개발 등 다양한 부서와 협업을 통해 진행되고, 서비스에 적용됩니다. 저희 팀 외에 다른 부서의 많은 사람들을 통해 도움을 받다 보니, 협업 과정과 저희 내부의 연구 과정 등이 하나씩 해결될 때마다 보람을 느낍니다.

<모델연구팀 사진>

Q. 우리 팀만의 자랑이나 좋은 점이 있다면 말씀 주세요.

저희 팀에서는 페이코, 광고 플랫폼, 음악, 쇼핑 등 다양한 데이터 분석부터 타겟 마케팅, 검색, 추천 등과 관련된 여러 업무를 폭넓게 다루고 있다 보니 웹 서비스로 응용 가능한 데이터 프로덕트 관련 거의 대부분의 업무를 경험해볼 수 있습니다.

팀 내 분위기는 NHN 내의 다른 조직과 마찬가지로 각자 맡은 업무를 자유롭게 하는 분위기고요, 최신 기술에 대한 서베이나 팀 스터디 등을 통해 개개인의 역량을 성장해 나가는데 함께 노력하고 있습니다. 업무를 할 때는 가능하면 합리적이고 훌륭한 방안을 찾기 위해 팀 내부에서 토의하고. 피드백하면서 진행하는 분위기를 만들어가고 있습니다.

Q. 마지막으로 하고 싶으신 말씀이 있다면요?

A. 인터뷰를 진행하면서 실무 프로세스와 역량에 대해 말씀드리다 보니, 다소 어렵고 딱딱하게 말씀드리게 된 것 같습니다. 그렇지만 이번 인터뷰를 통해 지원자분들이 실제 데이터사이언스 업무를 하고 싶다면, ‘어떤 식으로 준비하면 좋을지’, ‘IT 회사의 데이터사이언스 업무가 구체적으로 어떤 것인지’ 등을 보다 자세히 알려 드리고 싶었습니다.

데이터사이언스 업무는 머신러닝 알고리즘 등 최신 이론에 대한 숙지나 통계학 베이스 등도 필요하지만, 무엇보다 데이터로 현실의 문제를 해결하는 다양한 분야의 업무를 도전적으로 경험해보고 싶으신 분이 있다면 지원해 주시면 좋을 것 같습니다. 실제 팀 내에는 통계학 석사 학위를 가진 팀원뿐 아니라, 산업공학, 컴퓨터공학 출신 등 다양한 백그라운드를 가진 사람들이 모여 함께 일하고 있습니다. 업무를 희망하는 많은 분들과 함께 다양한 일들을 해 나가면 좋겠습니다.

INSIDE NHN

[N지니어스] 모델연구팀 정시앙 팀장님을 만나 보았습니다!

INSIDE NHN