2023년 5월 15일 월요일

2023 세번째 도서 리뷰 "데이터 품질의 비밀"

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

일종의 부서 이동(?) 이후에 대량의 데이터를 다루는 파트로 옮긴지 반년이 다되어 간다.

그러다보니 당연하게도 데이터가 관심사에 추가 되었고 점점 더 큰 비중을 차지 하게 되었다.


특히 많은 데이터들을 필요에 따라 가공하여 사용하는 일이 많다보니 처리 속도와 용량등 성능 문제와 더불어

결과 값들의 정확성이나 신뢰성이라고 할까? 그런 것들에 대한 관심도 많이 커지게 되었다.


이번 도서는 데이터 품질을 위한 데이터의 수집 단계에서 부터 정제, 변환, 테스트에 관한 내용을 거쳐 데이터 파이프라인, 신뢰성을 위한 아키텍쳐, 품질 문제 발생시 해결, 데이터 계보 구축, 데이터 품질 민주화(제목 보고 이해하기 힘들었....)의 내용을 거쳐 사례연구와 앞으로 나아갈 방향을 제시 하는 내용으로 이루어져 있다.


첫 챕터에서 데이터 산업 동향을 다루고 있는데, 당연하겠지만 데이터 산업은 IT에서 하나의 큰 축을 이루고 있다.

예전 RDBMS로 다루던 데이터의 양은 이제 하둡과 같은 시스템을 기반으로 엄청난 양의 데이터를 다루는 방향으로 변해가고 있다.


두번째 챕터에서는 데이터 시스템 구축을 위한 내용을 다루고 있다.

먼저 분석 데이터와 운영 데이터를 구분하여 설명하고, 데이터 웨어하우스와 데이터 레이크에 관해서 구분하여 설명하고 있다.

물론 최근들어 웨어하우스와 레이크의 경계가 점점 모호해 지는 부분에 관해서도 다루고 있다.

데이터 품질을 위한 품질 지표에 대해서 다루고 이후 데이터 카탈로그 설계와 구축으로 내용이 넘어 간다.


세번째 쳅터에서는 데이터의 수집, 정제, 변환, 테스트에 관한 내용을 다루고 있다.

아마 나와같은 개발자들이 가장 많이 접하는 업무에 관한 내용일 것이라 생각된다.

최초의 데이터 수집을 거쳐 데이터 정제를 위한 배치, 또는 실시간 처리와 정규화, 데이터의 변환, 데이터의 테스트 및 경고 알람 시스템 등에 관한 내용을 다루고 있다.


네번째 쳅터는 데이터 파이프라인 모니터링 및 이상 탐지에 관한 내용이다.

세번째 쳅터가 주 업무라면 이 쳅터의 내용은 주 업무가 원활하게 돌아 갈 수 있도록 도와주는 내용이 아닐까 생각 한다.

모니터링 시스템을 구축하고 모니터링 시스템을 통한 이상 탐지를 하는 내용들이다.

머신러닝을 이용한 경고시스템 개선에 관한 내용도 다루고 있다.


여기까지 내용은 신규 시스템에도 적용 가능 하지만 운영중인 시스템에 적용해볼 만 한 내용들이 있는듯 하다.


다섯번째 쳅터에서는 아키텍처 내용을 다루고 있다.

각 단계에서 데이터 품질을 위한 방안 등을 포함하는 아키텍처 관련  내용이다.


여섯번째 쳅터는 품질 문제가 발생했을 떄 해결 방법에 대해서 다루고 있다.

사고 라고 표현해서 서비스 장애라는 느낌을 줄수 있는데 데이터에 문제가 생겼을 경우 대한 내용이다.

데이터 이상의 감지, 대응, 원인 분석, 문제 해결 에 관한 내용을 다루고 있다.


일곱번째 쳅터는 엔드 투 엔드 데이터 계보 구축 이라는 타이틀을 가지고 있다.

쉽게 설명하자면 데이터의 히스토리를 어떻게 관리 할지에 관한 내용이다.(더 어렵나....)

데이터를 오랫동안 수집하게 되면, 중간중간 스키마 변경이라던데 NULL값이 들어가는 등 뭔가 점점 꼬여가기 마련이다.

이런 문제들을 위한 내용을 담고 있다고 보면 될 것 같다.


여덟번째 쳅터는 데이터 품질 민주화 라는 정치적인 제목을 가지고 있다!

원래 제목도 "Democratizing Data Quality" 라고 되어 있다.

다루고 있는 내용은 조직 전반에서 데이터를 어떻게 바라보고 다루어야 할지,

어떻게 구성원 모두가 데이터 품질 관리에 쉽게 접근 할 수 있도록 할 지에 관한 내용이다.

결국 데이터 품질을 위해서 모두가 노력 해야 한다는 내용이다.


아홉번째 쳅터는 사례연구이고 열번째 쳅터는 앞으로 나아갈 방향의 제시를 담고 있다.


책 표지 이미지를 찾으러 한빛 사이트에 갔다가 책이 검색이 안되서 살짝 당황 했었다.

이 책은 디코딩이라는 한빛의 임프린트 출판사에서 출간한 책이고 디코딩 사이트에서 표지 이미지를 찾을 수 있었다.


책 상세 정보에 난이도를 초중급이라 표기 해 두었던데 개인적으로 절대 초급자에게 도움이 될 책은 아닌듯 하다.

개인적으로는 최소한 중급 이상은 되어야 하지 않을까 싶다.

...요즘 초급들은 이런 내용을 쉽게 이해 하려나? (부제: 내가 너무 늙은걸까...ㅠㅠ)


이 책의 전반적인 내용을 간단하게 요약 하자면 "데이터라는 범위에 국한된 소프트웨어공학" 이라고 표현 하면 맞지 않을까?


오랜만에 단순 정보의 전달이 아닌, 내가 겪어봤던 다양한 케이스에 비추어 한번씩 생각하게 만들어 주는 내용의 책인것 같다.

2024년 첫번째 도서 리뷰 GPT-4를 활용한 인공지능 앱 개발

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다." 24년 첫 도서 리뷰이다. 작년까지? 한참 핫 했던 인공지능 서비스 Chat GPT에 관한 책이다. 핑계지만 어쩌다보니 GPT에 대한 접근이...