빅데이터 분석, 서울시장 관련어 안철수 1위

“최근 13개월 간 빅데이터 관심도 분석 결과
차기 서울시장 관련어에서 안철수 가장 앞서
대선 후보 관련어엔 조국,윤석열,이재명 1,2,3위”

트위터, 블로그, 커뮤니티, 뉴스제목 통합 데이터 분석 결과
정책 전문 계간지 <지구와 에너지>가 빅데이터 업체 <언노운데이터>에 의뢰

SNS의 빅데이터 분석 결과 여야 통틀어 차기 서울시장 후보군 가운데 안철수 국민의당 대표에 대한 관심도가 가장 높은 것으로 나타났다. 조국 전 법무장관, 윤석열 검찰총장, 이재명 경기도지사, 이낙연 더불어민주당 대표는 대선후보 연관어에서 각각 1,2,3,4위를 차지했다. 이로써 국민의힘 출신으로 내년 4월 서울시장 보궐선거나 내후년 대통령 선거에서 유력한 후보로 떠오르는 인사는 현재까지 없는 것으로 드러났다.

정책 전문 계간지 <지구와 에너지>(발행인:정용상 동국대 명예교수)는 빅데이터 조사 기업 <언노운데이터>(대표:서기슬)에 의뢰한 “최근 13개월 간(2019.8.1-2020.9.30) 정치 리더 언급량” 조사 결과를 20일 발표했다. 이 데이터는 트위터, 블로그, 커뮤니티, 뉴스 제목들을 통합해 언노운데이터가 자체 웹 크롤링 수집기 등을 통해 조사된 자료다. 언노운데이터 측은 “스팸과 리트윗, 반복성 게시물 제거 기능 등을 통해 특정 인물이 특정 이슈와 연관해 과다대표화되는 편향을 제거하는 과정을 거쳤다”고 밝혔다.

언노운데이터가 SNS상 정치 리더 16명의 언급량을 추출한 뒤 대권,서울시장 등과 연관된 키워드를 투입해 추가 분석을 실시한 결과 정치 리더들은 세 가지 그룹으로 분류할 수 있었다.

첫 번째 그룹으로 조국 전 법무부 장관(언급량 994,998건), 윤석열 검찰총장(467,383건), 이재명 경기도지사(401,727건), 이낙연 더불어민주당 대표(252,823건)가 있었다. 서기슬 언노운데이터 대표는 “조국, 윤석열, 이재명, 이낙연 4명이 빅데이터 언급량에서 다른 인물에 비해 대선,대권 관련 동시 언급 비중이 높았다. 그래서 대권 관련 인물로 군집화시킬 수 있었다. 특히 조국, 윤석열이 나란히 1,2위를 차지함으로써 현실 정치에서 그들의 현재 조건과 관계없이 대중의 심리적 관심과 전국적 인지도도란 측면에서 유력한 정치적 인물임이 드러났다”라고 분석했다.

두 번째 그룹은 안철수(244,610건) 국민의당 대표, 나경원 전 미래통합당 원내대표(147,457건), 오세훈 전 서울시장(135,220건), 홍준표 무소속 의원(112,125건), 심상정 정의당 의원(77,934건), 박주민 더불어민주당 의원(38,463건), 박영선 중소벤처기업부 장관(29,668건) 등이 형성하고 있다. 두 번째 그룹 인사들에 대한 SNS상의 언급량엔 서울시장과 연관된 대목이 상대적으로 큰 비중을 차지했다.

세 번째 그룹은 김경수 경남도지사(81,593건), 유승민 전 대선후보(72,298건), 원희룡 제주도지사(22,338건), 윤희숙 국민의힘 의원(7,823건), 조은희 서초구청장(5,541건) 순이다. 이 그룹의 인사들은 일정한 정도의 SNS 언급량을 갖고 있지만 대권이나 서울시장의 유력 후보군으로 분류될만큼 높은 관심도를 확보하지 못했다.

<지구와 에너지>의 김주한 편집위원은 “여론조사가 특정 시점에서 민심의 한 단면을 보여준다면 빅데이터 분석은 일정한 기간 동안 민심의 총체적인 관심을 드러내 준다. 여론조사가 설문 내용이나 질문 순서 등을 조정해 편향적인 결과를 유도하는 부작용이 있는 반면 빅데이터 분석은 인위적인 작용이 거의 불가능하다는 장점이 있다”며 “빅데이터 분석 기법은 여론조사의 문제점을 보완하는 역할을 할 수 있을 것”이라고 말했다.

빅데이터 분석 방법은 선거 여론조사와 달리 중앙선거관리위원회의 규율을 받지 않는다.

최근 13개월(2019.8.01.~2020.09.30.)간 빅데이터 언급량

트위터, 블로그, 커뮤니티, 뉴스제목 통합, 언노운데이터 자체 웹크롤링 수집, API 사용

– 스팸제거, 리트윗 및 반복성 게시물 제거 등 전처리 거침

이름언급량()
조국994,998
윤석열467,383
이재명401,727
이낙연252,823
안철수244,610
나경원147,457
오세훈135,220
홍준표112,125
김경수81,593
심상정77,934
유승민72,298
박주민38,463
박영선29,668
원희룡20,291
윤희숙7,823
조은희5,541

군집 분석 결과

이름언급량()
조국대권 키워드상관관계 높은 그룹
윤석열
이재명
이낙연
안철수서울시장 키워드상관관계 높은 그룹
나경원
오세훈
홍준표
심상정
박주민
박영선
김경수기타 그룹특정 상관관계 약함
유승민
원희룡
윤희숙
조은희

전체 분석 결과 시각화(2만 건 이상만 시각화)

1. 대권 연관어 상관관계 높은 그룹

2. 서울시장 연관어 상관관계 높은 그룹

3. 기타그룹

– 지구와에너지

지구와에너지
(사)한반도평화에너지센터가 발행하는 신개념의 컨설팅형 입법정책 계간지 매거진 '지구와에너지' 입니다.

댓글 남기기