Blogs

illustrations illustrations illustrations illustrations

Machine Learning

Published on Sep 10, 2017 by Yunwoong Kim on Machine Learnin

Machine Learning

머신러닝이란 데이터를 분석/학습 한 정보를 기반으로 예측이나 결정을 하기 위해 적용하는 알고리즘이라고 할 수 있습니다.

머신러닝과 유사한 의미의 용어로 AI, 딥러닝, 데이터마이닝, 패턴인식, 통계학 등도 사용되고 있는데 관련 전공자가 아니면 무슨 차이가 있는지 알기 어렵고, 또 무엇이 다른지 쉽게 이해가 되지 않습니다.

결론적으로는 약간의 차이는 있으나 교집합이 매우 큰 거의 유사한 의미라고 생각하면 됩니다.

비슷한 의미이지만 여러 용어가 사용하는 이유는 과학이나 기술분야도 이전과 큰 차이가 없으면서도 의도적으로 새로운 용어를 만들어서 좀 더 트렌디하게 보이고 좀 더 잘 팔리게 하려는 전략적인 목적이 있습니다.

데이타의 시대

스마트 폰은 우리의 위치와 패턴을 시시각각 기록하고 웹사이트는 모든 사용자의 클릭 하나하나를 수집하고 있습니다. 현재 우리는 데이타의 홍수 속에 살고 있지만 데이타의 수집하는 것만으로는 어떤 의미도 없습니다. 이러한 데이타를 분석하고 비지니스에 활용해야 의미가 있습니다.

Good Accuracy

머신러닝 모델을 만들다보면 정확도 수준이 어느 정도인지 끊임없이 고민해야 합니다. 예를들면 자신의 메일에서 스팸메일을 분류하는 분류 모델을 만들었고 스팸메일 예측이 90%의 정확도가 나왔다고 가정하겠습니다. 높은 성능이라 할 수 있을까요? 2010년 데이터에 따르면 전체 이메일의 90%가 스팸메일이라고 하니 분류 모델의 90% 성능은 그렇게 놀란만한 결과는 아닌 것 같습니다.

다중 클래스 예측이라 불리는 문제인데 단순히 가장 흔한 클래스를 예측하는 것입니다. 클래스의 불균형이 있을 때 굉장한 성능을 낼 수 있습니다. 한 클래스가 다른 클래스보다 월등히 많아 나타나는 문제입니다.

긍정오류 VS 부정오류

위에 언급한 것처럼 어떠한 데이타로 학습을 시켰고 그 데이타의 균형이 적절했는지에 따라 오류가 있을 수 있습니다. 그리고 오류의 유형에는 여러 유형이 존재합니다.

정답은 긍정인데 예측이 부정이면 거짓 부정 (부정오류)라고 합니다. 반대로 정답은 부정인데 예측이 긍정인 경우 거짓 긍정 (긍정오류)라고 합니다.

거짓 부정과 거짓 긍정은 실무에서 다른 영향력을 가집니다. 스팸 필터링을 다시 예로들면, 부정오류로 인해 스팸 메일인데 아니라고 판단한 겁니다. 이건 짜증이 나지만 아주 나쁘지는 않습니다. 반대로 긍정오류로 스팸이 아닌 이메일을 스팸으로 판단하여 스팸 폴더로 보내버렸다면 이메일은 못보게 되고 유실됩니다. 이 경우는 긍정오류가 더 안좋습니다.

다른 경우로 부정오류 인해 질병에 걸렸는데 안걸렸다고 나왔다면 매우 나쁜 결과입니다. 긍정오류의 경우도 질병이 없는데 질병이 있다고 판단한 경우 잘못된 약을 처방 할 수 있으니 이 경우나 나쁜 결과입니다.

사실 이런 두 오류로 인한 결과가 큰 영향을 가져오는 영역에서는 사용이 어렵다고 판단됩니다. 실제 비지니스에 적용하고 사용하는데 매우 신중 할 수 밖에 없습니다.

비즈니스에 활용

그렇다고 지나치게 부정적일 필요는 없습니다.

유투브는 매분마다 100시간 분량의 비디오가 업로드되고 있습니다. 그럼 뭘 봐야 하느냐가 문제입니다. 유튜브에서 관심있는 비디오를 보고 싶지만 정보의 과다로 인해 관심가는 컨텐츠를 찾아내는건 쉬운일이 아닙니다. 나에게 맞는 컨텐츠를 자동으로 발견할 방법이 있어야 합니다. 이때 필요한 것이 추천 시스템입니다. 사용자와 관심 컨텐츠를 연결이 필요했고 그 것을 머신러닝을 통해 구현이 가능합니다.

현재 제가 속한 조직의 업무에서 데이타를 통해 의미 있는 분류 모델(Classification Model)을 만들어 보려고 합니다.

» 해지고객예측 설명페이지로 이동

Recent Post

COVID-19-Global Challenges

COVID-19-Global Challenges

코로나19 이후, 즉 포스트 코로나(Post COVID-19) 시대의 세상은 지금과 완전히 다를 것입니다. 이미 각 국가의 고강도 사회적 거리두기 정책으로 인해 보금자리였던 집이 또 하나의 업무 공간으로 탈바꿈하였으며, 오프라인 사회에서 온라인...

Read More
RPA

RPA

RPA는 로보틱 프로세스 자동화(Robotic Process Automation)의 약자로 물리적인 로봇이 아니라 소프트웨어 로봇이 사람의 업무를 자동으로 대신해주는 소프트웨어라고 생각하시면 쉽습니다.

Read More
OCR

OCR

OCR은 입력, 손글씨 또는 인쇄 된 이미지 형태의 텍스트를 조작 할 수있는 기계 인코딩 텍스트 데이터로 치환하는 것입니다. 최근 AI, 자동화(RPA 등) 도입으로 많은 관심을 받고 있습니다.

Read More