글또 5기를 끝내고, 회고하기

글또 5기를 끝내고, 회고하기

글또 5기를 마치면서, 나는 어떻게 일하고 있는가…라고 하지만 넋두리 및 내 작은 목표에 대해서

글또 5기가 끝났다

11월 부터 시작되었던 글또 5기가 끝이 났다. 어떻게 하다보니 해가 바뀌었고 벌써 5월이 되었고, 글또 5기도 끝이 나버렸다. 시간이 정말 빠르게 흘러가고 있다. 이렇게 속절없이 흘러가는 시간 속에서 글또 활동을 어떻게 해왔는지, 그리고 글또 외에 내가 어떻게 살아왔는지 회고해보는 시간을 가져보려고 한다.



무엇을 썼을까

이번 기수에서는 Airflow와 관련된 글을 정말 많이 썼다. 글또에서 같은 채널의 온라인 회고시간을 가졌을 때도, Airflow 글 쓰는 사람으로 다 알고 계시는 것 같았다. 다른 글들도 많이 작성하고 싶었는데 업무 상… 다른 걸 공부할 시간이 없었다고 말하고 싶지만, 핑계처럼 보이기도 했다.

아카이브를 보니 10개의 글을 작성했다.

5기에 작성한 글

(글또5기 다짐하기 글이 짤렸음) 생각보다 많이 썼다. 글 쓴 것만 봐도 Airflow쳐돌이라는 것을 잘 알 수 있다. Airflow 글들과 그 배경지식을 위한 네트워크 글, 추천시스템 스터디를 하면서 쓴 FP-Growth, 추천 파이프라인 구성 글로 채워져 있다. 채널에 있는 분들에게는 매우 생소할 수도 있고, 그래서 오히려 재밌게 느껴질 수 있겠다는 것은 내 생각을 뿐이겠고, 실제로 피드백 들어오는 걸 보니까 무슨 말인지 몰라서 피드백 하기 어려워 하시는게 많이 느껴졌다. 그 분들에게는 핵노잼 글(ㅠㅠㅜ) 이었을 것 같아 가슴이 아프다. 엔지니어링 관련 글이 피드백 당첨되고 피드백을 해야 할 때면 참 막막했으리라… 물론 나름 쉽게 적는다고 쉽게 적고, 여러 짤을 사용해서 접근하기 쉽게 만들긴 했는데, 효과는 미미했던 것 같다. 하지만 알아주시는 분이 있어서 매우 감사하게 생각하고 그로 인해 힘이 많이 되었다.

고마운 분들



이전 기수에서는

geultto4was

이전 기수에서도 물론 엔지니어링 관련된 기본적인 내용을 많이 정리하고 작성했다. 하지만 확실히 5기에 비해서 논문 정리 내용이 몇 개 더 있는 게 확인된다(사진 길이 때문에 CRAFT 논문 요약이 짤림…). 4기 때는 딥러닝이나 모델링 관련해서도 서치를 많이 했고 엔지니어링 쪽에도 신경을 쓴 것 같다. 사진 찍으려고 아카이브를 다시 보다가 5기에 들어서면서 엔지니어링에 완전 집중한 게 확실히 느껴졌다.



달라진 업무

이렇게 글이 달라진 이유는 뭐니뭐니해도 일 때문이다. 아무래도 일하면서 얻은 정보나 지식을 정리하게 되기 때문인 것 같다. 21년 2월 부터 직무가 데이터 사이언티스트에서 데이터 엔지니어로 옮겨졌다. 직무상 분류해 놓긴한 건데, 이로 인해서 데이터 엔지니어링 업무에 더 집중하게 된 것 같다. 책임감이 더 생겨서 그런 것일까?

아무튼 데이터 엔지니어로 변경된 후 부터 기존에 서비스 되고 있던 구조를 더 효율적인 구조로 변경하고, 확장하는 등의 프로젝트를 많이 진행하게 되었다. 이를 통해서 네트워크의 중요성을 느끼게 되었고 구조를 업그레이드를 하려면, 그 툴을 제대로 알아야 하기 때문에 사용하는 툴에 대해서 더 파고들어서 공부하게 되었다. 이렇게 탄생한게 바로 Airflow 시리즈 글…! 🌟Airflow 시리즈 글🌟



일하는 방식

데이터 엔지니어링에 집중하게 된 것은 조직의 변화가 있었기 때문이다. 5기때에는 성장통이라고 해야 할까, 빠른 속도로 변화하는 조직과 그 방향을 정하는 데에서 여러 시행착오를 겪고 있었다. 2020년 회고하기 글에도 나와있긴 하지만 갑자기 팀원이 몇 명 나가게 되면서 분위기가 굉장히 어수선 했었다. 이럴때일수록 프로세스를 만들고 지키는 게 중요하다고 생각해서 팀원들과 앞으로의 방향, 그리고 일하는 방식, 어떻게 체크하고 공유할 것인지 이야기를 많이 나눴다. 그래서 탄생한 것이 데이터 사이언스팀의 칸반 보드였고, 자체 오전 스크럼 시간이 부활하게 되었다(칸반 만드는 것도 참 우여곡절이 많았지만 생략…). 금요일마다 칸반 보드에 작성한 업무들의 진행상황을 확인했고 늦춰지고 있으면 왜 늦춰지고 있는지 이야기를 나눴고, 완료된 일은 코드리뷰를 통해서 확인한 후 Task Complete에 넣어놨다.

그리고 이런 프로세스를 통해서 각자의 업무가 더 명확해졌다. 내 직무를 변경했기 때문일지도 모르겠지만, 각자의 일이 구체화 되었고 이를 통해서 어떤 업무의 담당자를 정할 수 있었다. 이런 프로세스가 만들어진 데에는 좋은 동료들과 끊임없이 소통을 했기 때문이기도 했지만, 개인적으로는 팀장님의 도움이 컸다. 기획 팀장님께서 데이터 사이언스 팀을 겸직해서 맡게 되셨는데, 기획팀 팀장으로서 기획팀과 개발팀의 프로세스를 잘 구축했었던 경험이 있었던 분이었다. 팀장님께서 주도적으로 프로세스를 만들어주신 것은 아니지만, 기획-개발의 프로세스를 만드는 모습과 설명을 들으면서 많은 걸 배울 수 있었고, 이를 잘 적용할 수 있었다. ‘어른이란 이런 거구나’, ‘직장 선배란 이런 것이구나’를 느끼게 해주신 분이기도 하다.

업무 프로세스



Data Enginnering

회고를 하다보니 앞으로의 쓸 글들도 데이터 엔지니어링 글이 될 것 같아서 이에 대한 생각을 잠시 작성해보려고 한다.

각종 커뮤니티를 보면, 직무 명 데이터 엔지니어는 하는 일이 어느정도 정해진 것 같은데 내 생각은 조금 다르다. 아직도 많은 회사에서 데이터 엔지니어를 구하고, 보유하고 있지만 각 데이터 엔지니어가 하는 일이 회사마다 다 다른것 같다는 생각이다. 회사가 작은지 큰지, 직종이 IT인지 제조업인지, B2C인지 B2B인지에 따라 하는 일이 참 많이 달라지는 것 같다는 걸 느끼고 있다. 지금 있는 이 회사에는 데이터 엔지니어가 없었다. 물론 데이터 사이언티스트도 없었다. 내가 들어오면서 데이터 팀이 구성되기 시작했고, 데이터의 중요성에 대해서 자각하기 시작했다(수 없이 여기에 대해서 자료를 공유하고 설득했다). 여담인데 생각해보니 이 회사의 1호 데이터 사이언티스트이지 데이터 엔지니어가 되었다. 허허 참…

다시 본론으로 돌아와서, 회사에서 데이터에 대한 중요성을 느끼기 시작해서 데이터 인프라를 제대로 구성하기 시작했다. 그래서 내가 요즘 하는 일은 데이터 인프라를 설계하고 구성하는 일과 여러 API를 만들고 FastAPI라는 새로운 프레임 워크로 갈아끼는 일, 그리고 의사 결정권자 및 실무자들을 설득하는 일이다. 아무 걱정없이 코드만 만지고 인프라를 구성하고 싶은데 그게 참 어렵다. 물론 예전에는 아무 걱정없이 모델링하고 데이터를 분석하고 싶었었다. 데이터 사이언티스트였으니깐! 하지만 계속 안된다고 하는 벽에 막혔었다. 필요한 데이터가 없거나 할 수 없는 구조이거나, 기타 등등의 이유로. 그래서 답답해서 직접하게 되다 보니 이렇게 되었다. 벽이 하나씩 뚫리고 있는 느낌이라 재밌긴 하지만 동시에 새로운 벽이 나타나는 것 같다는 힘든 점이 있다.



그래서 요즘 하는 일을 좀 더 자세히 적어보자면, 내 궁극적 목표는 데이터가 흐르는 조직 만들기 이다. 첫 단추로 회사에 GCP의 BigQuery를 도입하고자 한다. 여러 데이터 서비스를 하기 위해서는, 그리고 고객들에게 가치가 높은 서비스를 제공하려면 속도가 생명이라고 생각한다. 그런데 데이터 전처리하는데, 그리고 데이터를 끌어오는데 시간이 너무 오래 걸리는 문제가 지속적으로 발생하고 있다. 그래서 큰 데이터를 빠르게 쿼리할 수 있고 OLAP성으로 활용할 수 있는 BigQuery를 사용해보려고 한다. 이를 위해서 기존 DB에서 BigQuery에 데이터를 적재할 때 Embulk라는 새로운 오픈소스를 사용해야할 것 같다.

또한 BigQuery에 넣고 꺼내 쓸 때도 불필요한 작업을 하고 싶지 않기 때문에 AWS의 Glue처럼 ETL처리를 해서 전처리 된 데이터를 바로바로 사용할 수 있게 만들 것이다. 이렇게 BigQuery에 데이터를 담아놓게 되면, 여러 다른 제품들과도 결합해 사용할 수 있기 때문에 확장성 또한 확보할 수 있을 것이라고 생각한다. BigQuery에서 사용하는 주제 별로 주기적으로 전처리해 테이블을 만들어 데이터 마트를 구성할 수도 있겠고, 이를 통해 다른 부서에서 자유롭게 데이터 분석이 가능할 것이다. 또한 Data Studio나 Redash를 이용해서 자유롭게 데이터를 시각화 할 수 있게 만들 것이다.

무엇보다도 BigQuery에 데이터가 쌓이기 시작하면, 조직 내 SQL교육을 실시할 것이다. 데이터를 다루는 기본적인 언어인 SQL을 교육함으로써 모두가 데이터에 접근해 원하는 데이터를 확인하고 이 결과를 통해 의사결정을 내릴 수 있게 된다면…

그렇게 된다면 회사가 많이 바뀌지 않을까. 개인적으로 그래서 기대를 많이 하고 있다.




글을 마치며…

이렇게 글또 5기 작성한 글들을 보고 회고 및 넋두리 하는 시간이 끝났다. 누구에게 보여지려고 하는 회고가 어디있으랴, 회고는 본질적으로 넋두리가 기본이 아닐까 하는 생각으로 애써 정리를 하려고 했지만 정리가 잘 안된 글을 쓴 나를 위로하면서, 그리고 넋두리를 통해 글또 6기에 작성할 글에 대해서 잠시 고민해보면서 글을 마무리한다.

글또 5기를 끝내고, 회고하기

http://tkdguq05.github.io/2021/05/02/geultto5-end/

Author

SangHyub Lee, Jose

Posted on

2021-05-02

Updated on

2023-12-08

Licensed under

Comments