메인화면으로
플랫폼 기업 알고리즘, 은폐와 조작은 공개보다 훨씬 위험하다
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
  • 밴드 공유하기
  • 인쇄하기
  • 본문 글씨 크게
  • 본문 글씨 작게
정기후원

플랫폼 기업 알고리즘, 은폐와 조작은 공개보다 훨씬 위험하다

[오민규의 인사이드 경제] 알고리즘 설명은 민주주의를 위한 최소 의무

* <오민규의 인사이드 경제> '플랫폼 기업과 알고리즘' 연재 링크

① 유튜브·페북·인스타, 알고리즘은 당신을 잠식한다

② "플랫폼 기업은 알고리즘 정보를 노동조합에 제공해야 한다"

③ 라이더 조종하는 알고리즘을 라이더가 몰라야 하는 게 맞다고?

▲ 네이버 검색 포털 뉴스 추천 알고리즘 계산식 일부. ⓒ오민규 노동문제연구소 해방 연구실장

보기만 해도 머리가 지끈 아파오는 이 복잡한 수식은, 네이버(NAVER)가 검색 포털의 뉴스 추천 알고리즘 원리를 설명하는 계산식의 일부이다. 아니, 알고리즘을 꽁꽁 숨겨두려는 플랫폼 기업이 알고리즘을 설명했다고? 그렇다. 지난 7월에 네이버는 누구나 볼 수 있는 블로그에 '네이버 뉴스 추천 알고리즘' 설명자료를 아래와 같이 3개의 파트로 나누어 게시한 바 있다.

· 네이버 뉴스 추천 알고리즘에 대해 (Part1) (☞바로가기 : https://blog.naver.com/naver_search/222439351406)

· 네이버 뉴스 추천 알고리즘에 대해 (Part2) (☞바로가기 : https://blog.naver.com/naver_search/222439504418)

· 네이버 뉴스 추천 알고리즘에 대해 (Part2) (☞바로가기 : https://blog.naver.com/naver_search/222439512532)

협력 필터링 알고리즘

네이버도 구글이나 유튜브와 마찬가지로 특정 사용자에게 맞춤형으로 뉴스 추천 서비스를 제공한다. 로그인한 사용자가 어떤 뉴스 vj 를 읽었다고 해보자. 그럼 네이버는 같은 뉴스를 읽은 다른 사용자들이 공통적으로 읽은 다른 뉴스들이 무엇인지를 파악한다.

전체 사용자의 뉴스 소비 로그에서 뉴스 vj를 소비하는 비율을 P(vj)라고 정의해두면, 위 계산식에서 PMI(vj,vk) 값이 클수록 뉴스 vj를 본 사용자가 뉴스 vk도 함께 봤을 가능성이 높다는 해석이 가능하다.

그렇다면 vj라는 뉴스를 읽은 사용자에게 네이버는 자연스럽게 PMI(vj,vk) 값이 크게 나오는 vk 뉴스들을 추천하게 되며, 이런 방식이 이른바 협력 필터링(Collaborative Filtering) 알고리즘의 전형적인 사례라고 할 수 있다.

단순한 기초 로직에서 복잡한 AI로

조금만 생각해보면 이 방식이 추천 알고리즘의 기초라 말할 수 있다. 내가 배달 앱에 처음으로 로그인해서 이것 저것 살펴보다 중국 음식을 배달 주문한다. 그럼 AI는 나처럼 첫 배달로 중국 음식을 선택한 사용자가 다음번 배달엔 뭘 주로 선택했는지 데이터를 분석한다.

넷플릭스, 유튜브, 페이스북 등 추천 알고리즘이 작동되는 플랫폼에서도 마찬가지다. 물론 이들 플랫폼이 실제 사용하는 알고리즘은 이보다 훨씬 복잡하다. 단순히 어떤 상품이나 뉴스를 조회해본 것만이 아니라 그 콘텐츠에 머무른 시간도 고려해야 한다.

하지만 아무리 복잡한 검색 엔진이나 추천 알고리즘이라 하더라도 가장 기본적인 원리는 이처럼 단순한 로직(logic)에서 시작된다. 거기에서 사용자들이 만들어낸 데이터를 바탕으로 클릭수, 체류시간 등 다양한 매개변수(parameter)를 적용하면서 AI를 학습(machine learning)시킨다.

충분히 설명이 가능한 알고리즘

세 파트로 소개되어 있는 네이버 뉴스 추천 알고리즘 설명 자료, 사실 읽는 데만도 상당한 시간이 소요된다. 한번 읽어본다고 이해할 수 있는 것도 아니다. 하지만 중요한 건 네이버라는 플랫폼 기업이 이 알고리즘을 자세히 설명하고 있다는 사실이다.

상장기업의 회계장부와 재무제표가 공개되고 있지만, 평범한 시민이 이 자료만으로 그 기업의 재무상태를 쉽게 평가할 수 있는 건 아니다. 하지만 중요한 건 일정한 기준과 회계원리를 사용해 기업들이 자신의 재무구조를 자세히 설명하고 있다는 점이다.

기업 재무구조를 자세히 알기 위해 회계사를 비롯한 전문가들의 도움을 받기도 한다. 마찬가지로 플랫폼 기업이 자신이 사용하는 알고리즘 설명 자료를 내면, 해당 알고리즘의 작동 원리를 쉽게 이해하기 위해 AI나 알고리즘 전문가의 도움을 받으면 된다.

자, 네이버도 온 국민이 볼 수 있는 블로그 공간에 알고리즘 설명자료를 공개해놓지 않았는가. 요즘 다른 포털도 알고리즘 작동원리를 설명하고 전문가들의 검증도 받고 있다. 특히 대선과 지자체 선거 등 민감한 정치일정이 다가오고 있기에 오히려 플랫폼 기업들이 앞장서서 알고리즘을 공개하고 있는 상황이다.

플랫폼 기업 이윤만을 위해 작동하는 알고리즘

하지만 그런 네이버에도 흑역사가 있었다. 누구나 한번쯤 사용해봤을 네이버 쇼핑, 여기에 들어가보면 옥션, G마켓, 11번가, 쿠팡, 위메프 등 오픈마켓(쇼핑몰) 입점업체의 가격 등을 검색할 수 있는 비교 쇼핑 서비스를 제공받을 수 있다. 네이버 쇼핑은 이와 유사한 검색 서비스 시장점유율의 70%를 차지하고 있다.

그런데 네이버는 검색 알고리즘을 조작하고 있었다. 비교 쇼핑 검색만 하는 게 아니라 자사의 오픈마켓 '샵N'을 출시해 이곳 상품이 다른 오픈마켓 상품보다 우선 노출되도록 한 것. (샵N은 나중에 '스마트스토어'로 이름을 바꾸었다.) 2020년 10월 6일, 공정거래위원회(이하 공정위)는 네이버의 알고리즘 조작에 과징금 무려 267억을 부과했다.

네이버는 클릭수, 인기도, 구매평, 판매실적, 가격, 신뢰도 등을 종합적으로 평가해 검색 순위 알고리즘을 만들었다고 홍보해왔다. 하지만 공정위 조사 결과에 따르면 경쟁 오픈마켓에는 불리한 로직을 적용하고, 자사 오픈마켓에는 유리한 가중치를 적용해 노출 순위를 조작했다.

<인사이드경제>가 얘기해온 것처럼 네이버라는 플랫폼 기업이 자사의 이윤만을 위해 입력값과 매개변수를 조작해 왔던 사실이 드러난 것이다. 당분간은 이익이 많이 남았을지 모르지만 알고리즘 은폐와 조작은 결국 공정위 조사를 불러왔고 네이버 신뢰도에 큰 타격을 입히게 된다.

공정위가 대신 설명해준 네이버 알고리즘

공정위 조사 결과 네이버 쇼핑은 2012년부터 검색 알고리즘을 조작한 것으로 드러났다. 언론을 통해 공개된 내용만 보더라도 굉장히 세부적인 알고리즘 내용이 '설명'되고 있다. <인사이드경제>가 이걸 아래와 같이 표로 요약해 보았다.

▲ 네이버가 쇼핑검색 알고리즘을 바꾼 과정을 요약 정리한 표. ⓒ오민규 노동문제연구소 해방 연구실장

미국과 유럽에서는 플랫폼 기업들이 알고리즘에서 어떤 항목의 입력값을 사용하는지, 각각의 입력값에 어떤 매개변수(가중치)를 적용하는지를 설명하도록 의무화하는 추세이다. 그런데 공정위가 조사해서 네이버 검색 알고리즘의 입력값과 매개변수를 잘 설명해주고 있지 않은가.

공정위가 조사한 결과를 발표함으로써, 다시 말해 네이버가 알고리즘을 공개함으로써 영업기밀이 누설되었는가? 네이버 사업에 큰 타격을 받았는가? 그와 정반대다. 네이버가 알고리즘을 은폐하고 조작한 것 때문에 네이버 사업은 큰 타격을 입었다.

핑계를 찾지 말고 방법을 찾아야

지난 7월, 네이버가 검색 알고리즘을 자세하게 설명한 자료를 공개한 것도 이렇게 타격을 입은 이미지를 만회하기 위한 노력의 일환 아닐까? 그렇다면 다른 플랫폼 기업도 하지 못할 이유가 없다. 영업기밀이 폭로되는 것도 아니고 사업에 타격을 입는 것도 아니다. 오히려 알고리즘 은폐가 문제로 등장하고 있다.

“시시각각 배달료가 달라지고 지역별로도 변동 알고리즘이 작동된다. 이 복잡한 시스템을 어떻게 다 설명하란 말인가?"

어줍잖은 핑계와 구실을 찾지 말자. 시시각각 환욜이 변동하는데 어떻게 기업의 회계장부에 외환 자산은 정확하게 숫자로 기입되어 있을까? 특정 시점의 환율, 또는 일정 기간의 환율 평균을 공시하도록 회계원리를 정했기 때문이다. 이런 공시시스템이 완전하진 않지만 매년 매분기 공시가 이뤄지기 때문에 변화 추세를 누구든지 따라잡을 수 있다.

시간만이 아니라 지역에 따라 쉴새없이 변동되는 부동산 가격 역시 '공시지가'란 방법을 통해 회계장부에 기입된다. 공시지가와 시중 가격에 큰 차이가 발생할 경우 '자산재평가' 절차를 밟아 차이를 조정해준다. 이 역시 완전한 시스템은 아니지만 회계장부 해석에 큰 문제는 없다.

회계장부를 공시하는 어려움이 이것뿐이었을까? 환경·안전 규제 준수 여부를 수치로 공개하는 어려움은? 고용형태를 기업별로 공시하도록 만드는 데에도 수많은 어려움이 있었다. 하지만 핑계와 구실이 아니라 공시 또는 설명할 수 있는 방법을 찾아서 여기까지 왔다. 플랫폼 기업만 알고리즘 은폐라는 특혜를 누릴 이유는 어디에도 없다.

이 기사의 구독료를 내고 싶습니다.

+1,000 원 추가
+10,000 원 추가
-1,000 원 추가
-10,000 원 추가
매번 결제가 번거롭다면 CMS 정기후원하기
10,000
결제하기
일부 인터넷 환경에서는 결제가 원활히 진행되지 않을 수 있습니다.
kb국민은행343601-04-082252 [예금주 프레시안협동조합(후원금)]으로 계좌이체도 가능합니다.
오민규

노동문제연구소 '해방' 연구실장입니다. 2008년부터 <프레시안>에 글을 써 오고 있습니다. 주로 자동차산업의 정리해고와 비정규직 문제 등을 다뤘습니다. 지금은 [인사이드경제]로 정부 통계와 기업 회계자료의 숨은 디테일을 찾아내는 데 주력하고 있습니다.

프레시안에 제보하기제보하기
프레시안에 CMS 정기후원하기정기후원하기

전체댓글 0

등록
  • 최신순