heron

"The Uniqueness of Literary Studies and the Potential of Digital Humanities: Recent Trends in DH Research with a Modest Proposal (Seohyon Jung, 2023)"

서지 정보


1. 연구 요약

2. 연구 내용 정리

이 논문은 다음과 같은 목차를 갖는다.

  1. 동향의 동향
  2. 학문 분야로서의 디지털인문학
  3. 데이터로서의 문학: 디지털 문학 연구의 사례들
  4. 디지털 문학 연구의 발전을 위한 겸허한 제안

1장에서는 연구 목표를 밝힌다. 2장에서는 디지털인문학의 태동 과정과 문제를 제시한다. 3장에서는 다양한 국내외 디지털 인문학 연구 사례를 제시하며, 4장에서는 구체적인 제안을 제시한다.

이때 주목해야 할 것은, 3장에서 밝히는 연구 사례들을 통하여, 앞으로의 연구를 위한 4장의 제안을 구성하는 논리의 흐름이다. 그런 사유로, 논문에서 제시하는 연구 갈래를 정리하여 기록으로 남긴다.

2.1. 디지털문학 연구 갈래 - 1 (양적연구를 통해 문학사의 거대한 흐름을 다시 확인하거나 새롭게 시각화)

2.1.1. 대량의 소설 텍스트에 대한 텍스트마이닝을 통해 소설사적 통찰을 이끌어 내는 양적연구
2.1.2. 계량적 연구의 한계를 극복하기 위해 분석 결과에 꼼꼼한 비판적 읽기를 결합하는 연구 (계량적 분석 + 인문학적 해석)
2.1.3. LLM을 문학 연구에 적극적으로 결합하는 연구

2.2. 디지털문학 연구 갈래 - 2 (데이터 기반 분석을 통해 이전까지 당연하게 여겨져 온 문화적 해석에 정면으로 도전하는 연구)

2.2.1. 문학적 통찰력 + 비판적인 역사의식 + 컴퓨팅 기술로만 달성 가능한 인문학 연구 설계

2.3. 디지털문학 연구 갈래 - 3 (다층적이고 문학적인 해설을 포함한 마크업 작업이 완료된 대규모 텍스트 데이터 구축)

2.3.1. 19-20C 소설에 등장하는 대사의 다양한 속성을 마크업하는 대규모 전처리 작업

2.4. 국내 디지털인문학 연구 예시

국내의 디지털인문학 연구는, "고전학을 포함하는 인문정보학"과 "국문학"분야가 압도적이다. 한편, 역사 연구 분야에서도 아직 디지털 방법론은 주류가 아니다. 이어서 저자는 영문학과 디지털인문학의 결합 예시를 제시한다. 이 연구 사례들은 간략히 요약하고 넘어가겠다.

비평문을 대상으로 디지털인문 연구를 수행하면, 소위 '문학적'이라 여겨지는 표현들에 대하여 큰 손실 없이 양적 연구가 가능하다. 한편, 코퍼스 분석을 통한 문체 연구가 가능하다. 특정 작가의 작품을 양적 연구로 해석하여, 문학사의 흐름에서 어느 위치에 자리하는지를 규명할 수 있다. 또한 2020년 전후로 '코퍼스 문체론'과 '빈도분석'을 주요 방법론으로 채택한 디지털인문학 연구가 많았다.

2.5. 제안

저자는 '문학에 특화된 분석 도구의 부재'를 언급하며, 디지털 문학 연구의 어려움을 설명한다. 그러나 그런 도구가 없는 것에서 그치는 것이 아니라, 연구 공동체에 속한 학자 개개인(우리)이 할 수 있는 일이 있다고 역설한다. 구체적으로는 다음과 같이 정리된다.

3. 비판적 분석

비판적으로 분석하고 싶지만, 이 논문에는 딱히 비판할 것이 없다. 디지털인문학에 입문하려는 학생에게는 천금과도 같은 가치를 지닌 논문이다. 막연하게만 느껴졌던 디지털 방법론의 활용을 어느 정도 이해하게 되었다.

4. 연결과 확장

4.1. 문학 데이터를 위한 단어 임베딩 정확도 향상용 추가 어휘 세트 개발

흥미로운 아이디어가 떠오른다. 저자가 '문학에 특화된 분석 도구'의 부재를 언급하였는데, 그것을 직접 개발해 보는 것은 어떨까? 단어 임베딩과 감정 분석에 문예 이론을 결합해낼 방법은 무엇일까? 분명히 문서의 종류에 따라 사용되는 어휘의 의미망은 전혀 다르다. 소설과 백과사전이 다르듯, 각종 기술 문서와 시가 다르듯 말이다. 그러므로 문학에 특화된 분석 도구는, 해당 작품이 속하는 장르에서 주로 사용되는 어휘의 의미를 내포하는 분석 도구여야만 한다.

구체적으로는 어떤 방법을 사용할 수 있을까? 가장 먼저 떠오르는 것은 단어 임베딩에 사용되는 입력 텍스트에, 미리 준비된 추가 입력을 넣어 문학 해석에 특화하는 방법이 떠오른다. 즉, 특정 장르만을 위해 준비된 추가 어휘 세트를, 장르별로 개발하는 연구가 되는 것이다! 그리고 해당 어휘 세트들을 내포하고 있는 새로운 파이썬/R 라이브러리를, 기존의 임베딩 라이브러리를 감싸는 방식으로 개발하고 배포할 수 있을 것이다.

다만 선행 연구가 있는지 찾아볼 필요가 있다.

4.2. 문학 해석을 위한 LLM 파인튜닝 방법론 개발

LLM에 기록된 가중치는, 장르 구분이 없는 무수한 텍스트의 어휘간 관계성이다. 그렇다면, 문학과 거리가 먼 정보를 배제하는 것을 수행하지 못할 이유가 무엇인가? 다만 적절한 방식으로 문학적인 것과 비-문학적인 것을 규정할 방법은 무엇인가? 그것이 규정되었다면, LLM에서 네거티브 샘플링 혹은 Contrastive Learning을 어떻게 수행해야 원하는 결과가 나오는가? 의문이 많다.

의문도 의문이지만, 컴퓨팅 자원이 없다!

그리고 이 또한, 선행 연구가 있는지 찾아볼 필요가 있다.

참고문헌

  1. 정서현. (2023). 문학 연구의 고유성과 디지털인문학의 가능성: 연구 동향 분석 및 겸허한 제안. Retrieved from https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002989098
  2. Hammond, A., et al. (2020-2022). The Project Dialogism Novel Corpus.
  3. Jockers, M. (2013). Macroanalysis: Digital methods and literary history.
  4. Soni, S., Klein, L., & Eisenstein, J. (2021). Abolitionist Networks: Modeling Language Change in nineteenth-Century Activist newspapers. Journal of Cultural Analytics. https://doi.org/10.22148/001c.18841
  5. Underwood, T. (2019). Distant Horizons: Digital Evidence and Literary Change.
  6. Underwood, T. (2023, March 19). Using GPT-4 to measure the passage of time in fiction. Retrieved from https://tedunderwood.com/2023/03/19/using-gpt-4-to-measure-the-passage-of-time-in-fiction/

사담

존경합니다, 정서현 교수님. 후학을 위한 애정이 글에서 절절히 느껴집니다. 받은 은혜를 언젠가 학계에 환원할 수 있도록, 열심히 공부하겠습니다.

2025-08-20 기록