우수논문

  • HOME
  • 연구성과
  • 우수논문

인쇄

장려상 대통령 연설문 단어 빈도수의 통계로 본 시대적 상황 분석

우수논문 상세정보
구분 제7회 장려상 연구자 박영재, 김영빈, 정선영

국문초록


본 연구는 1대 이승만 전 대통령부터 18대 박근혜 대통령까지(1948~2015)의 대통령 연설문을 이용하여 통계적 분석(statistical analysis)을 한다. 연구 목적은 한글에서의 자연어 처리 과정을 통해 대통령 연설문에서 쓰이는 단어들과 시대적 상황과의 관계를 다음과 같이 분석하는 것이다. 첫째, 지프의 법칙(Zipf's law)이 대통령 연설문에 쓰이는 단어들의 빈도 분포에도 성립 하는지 분석해보았다. 둘째, 연설문 6,851 개를 통해 대통령별로 자주 사용한 명사를 조사하고, 어떤 명사들이 자주 쓰였는지 알아보았다. 셋째, 연도별로 나눠 단어들의 빈도수를 살펴보고, 이를 통해 단어들 간의 상관관계를 보았으며, 대한민국 정부의 '정치·사회', '산업·경제', '국방', '문화·체육·관광' 등 국정 전반의 주요한 사건들에 대한 관련 명사의 쓰임을 분석했다. 마지막으로 자주 쓰이는 명사들은 시대별로 유사한 경향을 보임을 발견하고, 그 관계를 수치적으로 분석했다.


목차

I. 소개

II. 방법

1. 지브의 법칙

2. 자연어 처리

3. 형태소 분석

4. 피어슨 상관관계

5. 데이터

III. 결과

1. 대통령별 연설문에서의 지프의 법칙

2. 대통령별 자주 사용하는 명사

3. 연도별 특정 단어에 대한 N-gram

4. 연설문 내에 사용된 명사간의 상관관계

IV. 결론

V. 참고문헌 References

논문사진

다운받기

키워드 지프의 법칙, 형태소 분석, NLTK, KoNLPy, 상관관계, 대통령 연설문