위키백과를 그래프로 시각화하여 찾아낸 놀라운 사실들
I Made a Graph of Wikipedia... This Is What I Found by adumb
위키백과 데이터 시각화 및 네트워크 분석 결과 기록
이 문서는 영어 위키백과의 630만 개 문서와 그 사이를 잇는 2억 개의 링크를 시각화한 그래프를 통해, 데이터의 군집 구조, 문서 간 연결성, 그리고 네트워크 이론이 실제 정보 체계에서 어떻게 발현되는지를 상세히 분석한 내용을 담고 있습니다.
1. 그래프의 구성 요소와 군집 분석
- 색상의 의미와 군집 형성: 그래프의 각 색상은 알고리즘으로 결정된 군집을 나타냅니다. 군집은 전체 네트워크의 다른 문서들보다 서로 더 긴밀하게 연결된 문서 그룹을 의미합니다.
- 군집의 특징: 알고리즘은 총 44개의 군집을 감지했습니다. 이론적으로 서로 밀접하게 연결된 문서들은 내용적으로도 유사할 가능성이 높습니다.
- 3번 군집: 76만 개 이상의 문서가 포함되어 있으며, 주로 정치와 법률 관련 카테고리입니다. 미국 대통령 문서들이 여기에 속합니다.
- 5번 군집: 음악 커테고리로, 다양한 음악가들의 문서가 모여 있습니다.
- 10번 군집: 비디오 게임 관련 문서들이 밀집해 있습니다.
- 11번 군집: 우주 물체 관련 문서들이 주를 이룹니다.
- 19번 군집: 지역 정치인들과 관련된 문서 그룹입니다.
- 사회상의 반영:
- 6번 군집: 영국과 미국의 영화 및 텔레비전 관련 문서들입니다.
- 별도의 독립된 군집으로 인도 영화와 한국 영화 군집이 존재합니다. 이는 인도와 한국 시네마의 인기와 서구권 시네마와의 뚜렷한 구분을 보여줍니다.
- 예외 사례로 영화 기생충이나 RRR은 해당 국가의 군집보다 미국 시네마 군집에 더 가깝게 연결되어 있습니다. 이는 서구권에서의 대중적 성공이 링크 구조에 반영된 결과입니다.
- 특이한 군집 사례:
- 14번 군집: 캐나다인과 하키 관련 카테고리가 거의 절반씩 나누어져 있어, 두 주제 사이의 강력한 연결성을 증명합니다.
- 스포츠의 분리: 인간은 모든 스포츠를 하나의 그룹으로 묶으려 하지만, 위키백과 네트워크 알고리즘은 각 스포츠(축구, 야구 등)를 서로 상당히 분리된 독립적인 군집으로 분류합니다.
2. 노드 크기와 문서의 영향력
- 크기의 정의: 각 원의 크기는 해당 문서로 들어오는 인입 링크(Incoming Links) 의 수에 비례합니다. 즉, 다른 문서에서 더 많이 인용될수록 노드가 커집니다.
- 예시: 농구 문서는 44,000개의 다른 문서로부터 참조되므로 자유 계약 선수나 골프 문서보다 노드가 큽니다.
- 주요 문서의 통계:
- 코로나19: 약 46,000개의 문서가 참조하며 가장 빠르게 성장한 문서 중 하나입니다.
- 제1차 세계 대전: 10만 개 이상의 인입 링크를 보유합니다.
- 제2차 세계 대전: 189,000개 이상의 인입 링크를 가집니다. 제1차 세계 대전과 유사한 링크 구조를 공유합니다.
- 축구(Association Football) : 약 24만 개의 링크로 전체 2위를 차지합니다. 대부분의 링크가 같은 스포츠 군집 내부(선수, 팀 문서 등)에서 발생한다는 특징이 있습니다.
- 가장 영향력 있는 문서: 미국(United States) 문서가 약 28만 개의 링크로 1위를 차지했습니다.
- 위키백과 전체 문서의 **38%**가 국가 관련 문서를 참조합니다.
- 영어 위키백과 기여자의 상위 25개국 분포를 분석한 결과, 기여자가 많은 국가일수록 해당 국가 문서의 노드 크기가 큽니다. 이는 사람들이 자신이 살고 있거나 친숙한 주제에 대해 글을 쓰는 경향을 반영합니다.
3. 위키백과 게임과 연결성 문제
- 위키백과 게임: 한 문서에서 다른 문서로 링크만을 클릭해 이동하는 게임입니다. (예: 포켓몬에서 고대 이집트까지 2번의 클릭으로 이동 가능)
- 연결이 불가능한 경우:
- 고아 문서(Orphan) : 다른 어떤 문서로부터도 링크를 받지 못하는 문서입니다. 전체의 약 5%(약 35만 개) 에 달합니다.
- 막다른 문서(Dead-end) : 다른 문서로 나가는 링크가 하나도 없는 문서입니다. 약 6,000개가 존재합니다.
- 막다른 고아 문서: 인입 링크와 유출 링크가 모두 없는 고립된 문서로, 약 2,000개가 존재합니다. 이들은 그래프 알고리즘을 방해하여 시각화에서 제외되었습니다.
4. 케빈 베이컨의 6단계 법칙 적용
- 분리 단계 분석: 고아나 막다른 문서를 제외한 대다수의 문서는 서로 잘 연결되어 있습니다.
- 예시: '털뭉치 정리(Hairy ball theorem)'에서 '펩시 과일 주스 홍수'까지 4번의 클릭으로 이동 가능합니다.
- 단계별 도달 범위(명왕성 문서 기준) :
- 1단계: 255개 문서 도달
- 2단계: 2만 개 이상 문서 도달
- 3단계: 61만 8천 개 이상 문서 도달
- 4단계: 약 300만 개 문서 도달 (전체의 절반 이상)
- 6단계: 약 570만 개 문서 도달 (전체의 약 90%)
- 수렴 지점: 어떤 문서에서 시작하든 7~8단계에 이르면 도달 가능한 문서 수가 약 585만 개(92%)에서 정체됩니다.
- 나머지 8% 중 5.5%는 고아 문서이며, 2.5%는 고립된 군집(Orphan Groups) 입니다.
- 고립된 군집 사례: 1300년대 영국 의회 의원 4명으로 구성된 '액턴 가문(Acton family)' 군집(42번 군집)은 자기들끼리만 링크를 주고받으며 외부와 단절되어 있습니다.
5. 경로 분석과 극단적 사례
- 평균 경로 길이: 무작위로 추출한 1만 쌍의 문서 사이의 평균 경로 길이는 4.8회입니다.
- 최장 경로: 두 문서 사이의 최단 경로가 10단계 이상인 경우는 0.01% 미만으로 극히 드뭅니다.
- 발견된 가장 긴 경로는 166단계입니다.
- '1953년 아랍 게임의 육상'에서 '999번 고속도로 목록'까지의 경로입니다.
- 이는 '825번 고속도로'부터 차례대로 다음 번호 고속도로를 클릭해야만 도달할 수 있는 선형적인 링크 구조 때문입니다.
6. 특이한 문서: 판타 케이크(Fanta cake)
- 변장한 막다른 고아(Disguised Dead-end Orphan) :
- 이 문서는 겉보기에는 'Fanta Kuchen'이라는 링크가 하나 있는 것처럼 보이지만, 클릭하면 다시 자기 자신(리다이렉트)으로 돌아옵니다.
- 사실상 나가는 링크도 없고 들어오는 링크도 없는 유일무이한 고립 문서였습니다.
- 그러나 영상 제작 과정 중에 문서가 편집되어 현재는 다른 페이지로 연결되는 링크가 생겼습니다. 이는 위키백과가 누구나 정보를 수정하고 고립된 문서를 자유롭게 할 수 있는 지속적으로 성장하고 변화하는 정보 네트워크임을 시사합니다.
토픽:
네트워크 이론