2018년 박스오피스 데이터 분석 1부의 후속편으로, 박스오피스의 일별 데이터와 개봉 요일 기준으로 주간 관객수를 분석하는 방법을 포스팅하겠습니다.
사실 이전 1부 포스팅에서는 일별 데이터가 아니라 월별 데이터여도 분석 가능한 내용들이었습니다. 일별 데이터로 다운로드 한 이유는 영화별 주간 관객수를 분석하고 싶어서였습니다.
영화진흥위원회에 주간/주말 박스오피스도 제공되고 있습니다만, 주간의 기준이 월요일~일요일로 설정되어 있어서 개봉요일이 서로 다른 영화를 비교하기 어렵습니다.
예를 들어 관객수 1위 영화 ‘신과함께-인과연’의 일별 관객수 데이터를 베이스로 주간 기준에 따라 달라지는 주간 관객수를 계산해보겠습니다.
QUERY : select A, G where C=’신과함께-인과 연’ and A >= date ‘2018-08-01’ order by A limit 7
- 날짜 표시 : A
- 일별 관객수 표시 : G
- 영화 제목을 지정 : where C=’신과함께-인과 연’
- 개봉일(2018-08-01) 이후의 데이터만 : and A >= date ‘2018-08-01’
- 날짜 순서대로 표시: order by A
- 7개만 표시: limit 7
샘플 스프레드시트: KOFIC 2018년 일별 박스오피스 분석 > ⓠ 주간 기준에 따른 주간 관객수
주간 기준에 따라 첫 주의 주간 관객수가 달라지는 것을 볼 수 있습니다.
영화마다 개봉요일이 다르기 때문에 각 영화별로 개봉요일 기준으로 주간 관객수를 계산할 수 있도록 하겠습니다.
data 사전 준비
data 시트에서 개봉일 데이터 기준으로
WEEKDAY 함수로 개봉일의 요일을 계산한 데이터(W: 개봉요일)와
WEEKNUM 함수로 해당 영화의 개봉요일 기준으로 그 해의 몇번째 주인지를 알 수 있는 데이터(U: 주)를 추가합니다.이렇게 모든 일별 데이터에 개봉요일(W)과
개봉요일을 기준으로 그 해의 몇 주 차인지(U) 알 수 있는 데이터가 추가되었습니다.
쿼리로 영화의 주간 관객수 알아보기
우선 관객수 1위 영화 ‘신과함께-인과연’의 주간 관객수를 쿼리로 확인해보겠습니다.
QUERY : select U, min(A), max(A), sum(G) where C=’신과함께-인과 연’ group by U label min(A) ‘시작 날짜’, max(A) ‘종료 날짜’, sum(G) ‘주간 관객수’
- 주 번호 표시 : U
- 해당 주의 시작 날짜 표시 : min(A)
- 해당 주의 종료 날짜 표시 : max(A)
- 주간 관객수 표시 : sum(G)
- 영화 제목을 지정 : where C=’신과함께-인과 연’
- 주 번호로 그룹을 묶음 : group by U
샘플 스프레드시트: KOFIC 2018년 일별 박스오피스 분석 > ⓠ Top 1 영화 주간 관객수
첫 번째 주와 두 번째 주의 데이터는 개봉일 이전의 날짜인 것을 보아 개봉 전 시사회의 데이터인 것 같습니다. 그래프를 보시면 개봉한 주의 주간 관객수가 가장 높습니다.
쿼리로 영화별 주간 관객수 알아보기
위에서 사용한 쿼리를 상위 20위 영화의 제목(2행)과 개봉일(3행)을 기준으로 적용하여 각 영화의 주간 관객수를 알아보겠습니다.
QUERY : select sum(G) where C='”&F2&”‘ and A >= date ‘”&F3&”‘ group by U
- 주간 관객수 표시 : sum(G)
- 영화 제목을 지정 : where C='”&F2&”‘
- 개봉날짜 이후만 : A >= date ‘”&F3&”‘
- 주 번호로 그룹을 묶음 : group by U
샘플 스프레드시트: KOFIC 2018년 일별 박스오피스 분석 > ⓠ 영화별 주간 관객수
위 데이터를 좀 더 보기 편하도록 행렬을 바꿔 새 시트에 복사해 붙이고, 몇몇 데이터를 추가했습니다.
B열에 총관객수를 넣고, C열에 첫 주 관객수가 총관객수의 몇 퍼센트인지 계산한 데이터를 추가.
2017년에 개봉한 영화 두 편을 제외하고, 나머지 영화들의 첫 주의 관객수 비율 평균은 약 51.2%입니다. 또한 가장 높은 주간 관객수를 기록한 주가 몇 번째 주인지 알기 쉽게 조건부 서식을 설정했습니다.
조건부 서식 규칙: 주간 관객수 데이터 중 가장 큰 수치를 가진 셀 배경이 노란색이 되도록 설정.
보헤미안 랩소디를 제외하고 모든 영화가 개봉한 첫 주의 주간 관객수가 가장 높습니다.
주간 관객수를 그래프로 만들어보면 대부분의 영화는 첫 주가 가장 높고 개봉일로부터 멀어질수록 관객수가 줄어듭니다. 보헤미안 랩소디의 주간 관객수 추이는 정말 독보적인 흥행 패턴이라 할 수 있겠습니다.
구글 스프레드시트의 다른 활용법을 알고싶으시다면!
» G Suite 사용법 #4 스프레드시트 활용 예시 모음