ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 수학으로만 답할 수 없는 데이터들
    About Data 2020. 10. 19. 19:29

    회사 동료 A와의 대화 중, 데이터를 단순한 숫자로 보았을 때 해결할 수 없는 문제들에 대해 이야기를 나누었습니다.

    일례로, '오렌지' 라는 단어가 검색된 데이터 하나만으로 유저의 의도를 파악할 수 있을까요?

    유저의 검색 목적은 '오렌지 주스'일 수도 있고, '오렌지 티셔츠'일 수도 있고, '오렌지 나무'일 수도 있습니다.

    그래서 데이터를 볼 때 문맥(Context)를 파악하는 것이 중요합니다.

    유저의 의도에 보다 부합하는 결과를 제공하기 위해 그들의 행동을 따라 분석하고, 그룹화하는 작업이 필요합니다.

     

    1. 문맥과 그룹화

    '오렌지 주스'라는 단어는 다음 중 어느 단어 다음에 검색될 가능성이 높을까요?

    - 오렌지 티셔츠

    - 아침 식사

    만약 이 단어들을 수학적으로 분류한다면 같은 '오렌지'라는 단어가 들어간 쪽을 유사하다고 판단할 수도 있습니다.

    하지만 인간의 관점으로 볼 때는 아무래도 '아침 식사' 다음에 '오렌지 주스'가 검색되는 게 자연스럽지 않나요?

    이런 부분은 검색 엔진들이 중요하게 해결하려고 하는 문제이기도 합니다.

    검색된 단어가 정확히 포함되었으나 관련성이 떨어지는 페이지가 상단에 노출되는 것과

    검색된 단어가 포함되어 있지 않아도 관련성 높은 페이지를 보여주는 것 중

    유저의 입장에서는 후자가 더 편리할 테니까요.

     

    2. 심리학과 진화론

    수많은 검색 엔지니어와 데이터 사이언티스트들이 이런 문제를 해결하기 위해 연구하고 있으며

    이제는 수학적인 계산에만 답이 있지 않습니다.

    심리학에 기반한 행동 분석, 진화론에 기반한 알고리즘 선택 방법 등은 수 년 전부터 실무에 적용되고 있습니다.

    유튜브에서도 이미 오래 전에 노출 알고리즘에 대한 연구에서 여러 변수들과 함께

    영상의 'age'를 판단 기준으로 추가하여 효율을 개선했다는 발표를 한 바 있습니다.

    같은 유사도를 가진 두 영상 중, 유저들이 보다 신선한 최근 영상을 선호한다는 심리에 기반한 결과입니다.

    이러한 결과를 검증하기 위한 A/B 테스트는 그 자체로 진화론의 산물입니다.

     

    3. 호텔의 딜레마

    만약 A 호텔이 B 모텔과 가까운지, C 펜션과 가까운지를 어떻게 판단할까요?

    첫 번째로 유저의 검색 기록을 들여다볼 수 있습니다.

    하지만 검색 간 텀이 길거나, 유저의 목적이 갑작스럽게 바뀌었을 가능성을 놓칠 수 있습니다.

    두 번째로 A 호텔의 메타 데이터를 비교해볼 수 있습니다.

    A 호텔이 관광지에 위치했는지, 도심에 위치했는지, 주 소비층과 이용 시간대, 근거리 숙소 분포 등...

    세 번째로 확률 테스트를 해볼 수 있습니다.

    기존 검색 데이터를 기반으로 A 호텔을 검색한 사람들이 B 모텔을 검색할 확률과, C 펜션을 검색할 확률 분포를 계산하여

    B 모텔과 C 펜션 중 승률이 높은 쪽으로 그룹화할 수 있습니다.

    그리고 실무에서는 위 세 가지 방법 +@를 복합적으로 판단하여 서비스에 반영하게 됩니다.

     


    데이터 분석을 잘 하기 위해 기술적, 수학적 공부가 가장 중요하다고 생각했지만,

    이런 부분도 미처 놓쳐서는 안 되겠다는 생각에 기록합니다.

    실 데이터란 역시 누군가의 행동의 결과이고 마음의 반영이기 때문에 인문학적 접근이 더해졌을 때 시너지를 낼 수 있다는 것.

     

Designed by Tistory.