2020/07/23 02:38
유튜브에 영상을 올리니 끊기도 좀 그렇고, 그렇자니 시간을 너무 많이 뺏기는 것 같아서, 내 추천 동영상 피드를 내 맘대로 바꿔보기로 했다. 여느 알고리즘이 그렇듯, labeling 된 대량의 정보를 입력해주면 이에 따라 내가 원하는 아웃풋을 만들어낼 것이라 판단하였다. 그래서, 이 작업을 하면서 알게 된 여러가지 사실을 적어보려고 한다.
이목이 끌리는 랜덤한 영상이 추천되는 것은 알고리즘 상 더 오래 사용자를 잡아두기 위해 필시로 넣는 것 같으니, 이를 줄이는 방법도 같이 알아보자.
.
1. 사용하는 사용자 기초 정보
구독 채널, 좋아요 표시한 영상, 댓글 단 영상, 나중에 보기로 한 영상, 플레이리스트로 저장한 영상.
당연하게 사용할 정보들.
1-1. 기초 정보를 적게보단 많이 제공하는 것이 좋다
구독 채널을 네 다섯개로 줄여보니, 아무리 정보를 먹여도 랜덤한 동영상이 끼워져 나오는 것을 확인하였다. 그러므로, 내 취향에 맞는 영상이 많은 채널을 몇개 (예를 들자면 뉴스 채널) 을 몇개 구독해주면, 부족한 피드를 이들로 대체해줘서 다른 쓸데없는 랜덤 영상을 추천받지 않는다.
2. 긍정적 정보보단 부정적 정보가 효과적
'내가 이런 걸 좋아한다' 고 label 을 붙이는 것보다, '내가 이런건 진짜 싫어한다' 라고 label 붙이는 것이 더 효과적으로 먹힌다. 예를 들어, 보고 싶은 피드를 좋아요 표시하는 것보다, 보기 싫은 채널이나 영상을 차단하는 것이 더 잘 먹힌다. 여기서 잘 먹힌다 함은, 싫은 영상은 진짜 더 이상 안 보여준다는 것이다. 좋아요 표시한 것과 비슷한 피드를 더 많이 생성하는 것은 잘 안먹힌다.
2-1. 채널 막기 보단 영상 막기
부정적 정보도 두 가지가 있다. ' 이 채널 보기 싫어요' 와 '이 영상 보기 싫어요'가 있다. 언뜻보면 전자가 더 많은 영상을 한꺼번에 제어할 수 있을 것 같지만, 그렇지 않다. 아마 채널에 다양한 주제의 영상이 올라올 수 있기 때문에 쉽사리 블랙리스트로 관리하지 않는 것 같다. 대신, 영상은 하나에 한 주제가 거의 매칭 되어있으므로, 그 주제에 대해 콕 집어서 없앨 수 있으므로 더 효과적인 듯 하다. 여담으로, 유튜브 hashing 알고리즘은 구글 검색엔진의 알고리즘을 본따 사용하는듯 한데(구글이 인수한 후 영상 검색엔진이 크게 성장함), 이를 알고리즘적으로 뜯어보면 (알려진 정보가 많다) 정말 스마트하다는 것을 알 수 있다.
3. 추천동영상 피드의 첫 10개 중 대부분은 랜덤하다
아무리 preference 정보를 계속 먹여도, 추천 동영상 첫 10개에서 랜덤한 영상이 적어도 하나는 껴있다. 그런 영상들은 대부분 조회수가 높고 썸네일이 이목을 끄는 종류다. 조금 더 내려가면, 내 구독 정보에 철저히 따른 영상을 보여주고, 또 얼마 안가 랜덤한 영상을 많이 끼워준다. 이를 반복한다. 그러므로, 알고리즘에 휘둘리고 싶지 않다면 추천 동영상의 첫 10개를 보지 않고 넘기거나, 옆 메뉴의 '구독' 파트를 사용하면 좋다.