1. 문학 연구의 고유성과 디지털인문학의 가능성: 연구 동향 분석 및 겸허한 제안 (정서현, 2023)

서지 정보

Title: 문학 연구의 고유성과 디지털인문학의 가능성: 연구 동향 분석 및 겸허한 제안
Author / Publication Year: 정서현(Seohyon Jung) / 2023
Link: https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002989098

1. 연구 요약

핵심 문제의식:
"디지털인문학에 대한 의구심, 우려, 기대가 범람하는 상황."
연구 목표:
"변화하는 학술 환경 속 문학 연구의 위치와 고유성, 그리고 디지털 문학 연구의 가능성 성찰."
방법론:
다양한 연구를 살펴보고, 정성적으로 성찰.
중요성:
인문학 연구자에게 유효한 의미 제공. 디지털인문학 연구가 보이는 새로운 방향성과 가능성을 제시. 문학 연구의 고유성과 디지털인문학이 공존할 수 있음을 제시.

2. 연구 내용 정리

이 논문은 다음과 같은 목차를 갖는다.

동향의 동향
학문 분야로서의 디지털인문학
데이터로서의 문학: 디지털 문학 연구의 사례들
디지털 문학 연구의 발전을 위한 겸허한 제안

1장에서는 연구 목표를 밝힌다. 2장에서는 디지털인문학의 태동 과정과 문제를 제시한다. 3장에서는 다양한 국내외 디지털 인문학 연구 사례를 제시하며, 4장에서는 구체적인 제안을 제시한다.

이때 주목해야 할 것은, 3장에서 밝히는 연구 사례들을 통하여, 앞으로의 연구를 위한 4장의 제안을 구성하는 논리의 흐름이다. 그런 사유로, 논문에서 제시하는 연구 갈래를 정리하여 기록으로 남긴다.

2.1. 디지털문학 연구 갈래 - 1 (양적연구를 통해 문학사의 거대한 흐름을 다시 확인하거나 새롭게 시각화)

2.1.1. 대량의 소설 텍스트에 대한 텍스트마이닝을 통해 소설사적 통찰을 이끌어 내는 양적연구

예: Matthew Jockers, "Macroanalysis", 2013
의미: 영국 소설이 다뤄 온 주제의 역사적 변화 양상을 새롭게 발견.
방법론: 서지정보 기반의 통계 분석 + 장르별 토픽 모델링 + 작품별 중심어에 대한 시계열 시각화.

2.1.2. 계량적 연구의 한계를 극복하기 위해 분석 결과에 꼼꼼한 비판적 읽기를 결합하는 연구 (계량적 분석 + 인문학적 해석)

예: Ted Underwood, "Distant Horizons: Digital Evidence and Literary Change", 2019
의미: 장기적인 시계열의 거시적인 문학사 분석.
방법론: ? (아직은 알 수 없습니다. 추후 읽어보고 돌아오겠습니다. 논문에서 구체적으로 어떤 방법론을 사용했는지 언급하지 않습니다.)

2.1.3. LLM을 문학 연구에 적극적으로 결합하는 연구

예: Ted Underwood, "Using GPT-4 to measure the passage of time in fiction", 2023.
의미 1: '시간'처럼 측정하기 어려운 것으로 여겨지는 문학적 관념을 다루어내었다.
의미 2: 개인적으로는, LLM이 시간을 측정할 수 있도록 하는 프롬프트의 조정과, LLM의 추정 결과를 검증하는 방법론 또한 큰 의미를 갖는다고 생각한다.
의미 3: 온라인 공간에 자신의 연구 설계 및 근간 논리, 연구 과정의 시행착오, 인문학적 의의를 모두 공개.
방법론: 250단어 단위로 쪼갠 작품을 GPT-4로 입력하여 시간 흐름 추정. 이후 LLM의 추정 결과에 대한 통계적 유의성 검증.

2.2. 디지털문학 연구 갈래 - 2 (데이터 기반 분석을 통해 이전까지 당연하게 여겨져 온 문화적 해석에 정면으로 도전하는 연구)

2.2.1. 문학적 통찰력 + 비판적인 역사의식 + 컴퓨팅 기술로만 달성 가능한 인문학 연구 설계

예: Sandeep Soni, Lauren klein, Jacob Eisenstein, "Abolitionist Networks: Modeling Language Change in nineteenth-Century Activist newspapers", 2021.
의미: 대형 신문의 백인 남성 에디터가 아니라, 소규모 신문의 흑인 여성 에디터들이 당시의 담론을 이끌었음을 관측해냈다.
방법론: 19C 흑인 해방운동을 주도했던 여러 신문에서 활용된 주요 어휘 중, 주요어들의 의미 변화를 역사적으로 분석. 이후 신문들 사이 언어 사용 관련 상효 영향의 네트워크를 밝혀냄.

2.3. 디지털문학 연구 갈래 - 3 (다층적이고 문학적인 해설을 포함한 마크업 작업이 완료된 대규모 텍스트 데이터 구축)

2.3.1. 19-20C 소설에 등장하는 대사의 다양한 속성을 마크업하는 대규모 전처리 작업

예: Adam Hammond ..., The Project Dialogism Novel Corpus, 2020-2022
의미: 문학 데이터 구축을 통한, 다양한 후속 연구 촉발. 데이터 구축 작업의 원칙(공개) 충족 사례.
방법론: 원본 문학 작품에 대한 정성적 해석을 수행하고, 그 결과를 마크업(주석).

2.4. 국내 디지털인문학 연구 예시

국내의 디지털인문학 연구는, "고전학을 포함하는 인문정보학"과 "국문학"분야가 압도적이다. 한편, 역사 연구 분야에서도 아직 디지털 방법론은 주류가 아니다. 이어서 저자는 영문학과 디지털인문학의 결합 예시를 제시한다. 이 연구 사례들은 간략히 요약하고 넘어가겠다.

비평문을 대상으로 디지털인문 연구를 수행하면, 소위 '문학적'이라 여겨지는 표현들에 대하여 큰 손실 없이 양적 연구가 가능하다. 한편, 코퍼스 분석을 통한 문체 연구가 가능하다. 특정 작가의 작품을 양적 연구로 해석하여, 문학사의 흐름에서 어느 위치에 자리하는지를 규명할 수 있다. 또한 2020년 전후로 '코퍼스 문체론'과 '빈도분석'을 주요 방법론으로 채택한 디지털인문학 연구가 많았다.

2.5. 제안

저자는 '문학에 특화된 분석 도구의 부재'를 언급하며, 디지털 문학 연구의 어려움을 설명한다. 그러나 그런 도구가 없는 것에서 그치는 것이 아니라, 연구 공동체에 속한 학자 개개인(우리)이 할 수 있는 일이 있다고 역설한다. 구체적으로는 다음과 같이 정리된다.

디지털 문학 연구에 적합한 평가 기준을 함께 고민하자.
인문 학술 데이터(마크업된 문학 데이터) 생산에 관심을 갖자.
더 많은 문학 연구자들이, 공동 연구를 진행할 수 있는 환경을 만들자.

3. 비판적 분석

비판적으로 분석하고 싶지만, 이 논문에는 딱히 비판할 것이 없다. 디지털인문학에 입문하려는 학생에게는 천금과도 같은 가치를 지닌 논문이다. 막연하게만 느껴졌던 디지털 방법론의 활용을 어느 정도 이해하게 되었다.

4. 연결과 확장

4.1. 문학 데이터를 위한 단어 임베딩 정확도 향상용 추가 어휘 세트 개발

흥미로운 아이디어가 떠오른다. 저자가 '문학에 특화된 분석 도구'의 부재를 언급하였는데, 그것을 직접 개발해 보는 것은 어떨까? 단어 임베딩과 감정 분석에 문예 이론을 결합해낼 방법은 무엇일까? 분명히 문서의 종류에 따라 사용되는 어휘의 의미망은 전혀 다르다. 소설과 백과사전이 다르듯, 각종 기술 문서와 시가 다르듯 말이다. 그러므로 문학에 특화된 분석 도구는, 해당 작품이 속하는 장르에서 주로 사용되는 어휘의 의미를 내포하는 분석 도구여야만 한다.

구체적으로는 어떤 방법을 사용할 수 있을까? 가장 먼저 떠오르는 것은 단어 임베딩에 사용되는 입력 텍스트에, 미리 준비된 추가 입력을 넣어 문학 해석에 특화하는 방법이 떠오른다. 즉, 특정 장르만을 위해 준비된 추가 어휘 세트를, 장르별로 개발하는 연구가 되는 것이다! 그리고 해당 어휘 세트들을 내포하고 있는 새로운 파이썬/R 라이브러리를, 기존의 임베딩 라이브러리를 감싸는 방식으로 개발하고 배포할 수 있을 것이다.

다만 선행 연구가 있는지 찾아볼 필요가 있다.

4.2. 문학 해석을 위한 LLM 파인튜닝 방법론 개발

LLM에 기록된 가중치는, 장르 구분이 없는 무수한 텍스트의 어휘간 관계성이다. 그렇다면, 문학과 거리가 먼 정보를 배제하는 것을 수행하지 못할 이유가 무엇인가? 다만 적절한 방식으로 문학적인 것과 비-문학적인 것을 규정할 방법은 무엇인가? 그것이 규정되었다면, LLM에서 네거티브 샘플링 혹은 Contrastive Learning을 어떻게 수행해야 원하는 결과가 나오는가? 의문이 많다.

의문도 의문이지만, 컴퓨팅 자원이 없다!

그리고 이 또한, 선행 연구가 있는지 찾아볼 필요가 있다.

참고문헌

정서현. (2023). 문학 연구의 고유성과 디지털인문학의 가능성: 연구 동향 분석 및 겸허한 제안. Retrieved from https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002989098
Hammond, A., et al. (2020-2022). The Project Dialogism Novel Corpus.
Jockers, M. (2013). Macroanalysis: Digital methods and literary history.
Soni, S., Klein, L., & Eisenstein, J. (2021). Abolitionist Networks: Modeling Language Change in nineteenth-Century Activist newspapers. Journal of Cultural Analytics. https://doi.org/10.22148/001c.18841
Underwood, T. (2019). Distant Horizons: Digital Evidence and Literary Change.
Underwood, T. (2023, March 19). Using GPT-4 to measure the passage of time in fiction. Retrieved from https://tedunderwood.com/2023/03/19/using-gpt-4-to-measure-the-passage-of-time-in-fiction/

사담

존경합니다, 정서현 교수님. 후학을 위한 애정이 글에서 절절히 느껴집니다. 받은 은혜를 언젠가 학계에 환원할 수 있도록, 열심히 공부하겠습니다.

2025-08-20 기록