3. 인도 논서(śāstra) 문헌군 TEI 인코딩 전략- 해석적 층위의 데이터를 중심으로 (함형석, 2024)
핵심 문제의식: SARIT(Search and Retrieval of Indic Texts) 등의 프로젝트에서 인도의 문헌에 대한 텍스트 인코딩 기준안을 제시하고 있지만, 그들은 문헌학적인 정보에 대한 인코딩만을 중점적으로 다루고 있다. 그러나 인도 논서의 해석에는 역사적 맥락 해석을 위한 참조정보(언급정보, 인용정보)와 개념어 사용방식에 대한 참조가 필수적이다.
핵심 주장: 해석적 작업을 하는 연구자들의 관점에서 문헌 디지털화의 유용성을 최대화하기 위해, 해석적 정보를 데이터화 해야 한다.
연구 목표: 참조정보와 개념어 사용정보를 데이터로 간주하고 이를 TEI에 부합하고 SARIT과 호환가능한 스키마로 개발할 수 있는 방안을 제안.
기대효과: 해석적 데이터가 포함된 새로운 데이터세트는, 인도철학에 대한 연구를 보다 견고한 역사적 기반 위에 올려놓을 것.
인도의 전통적 지식인들은 '논서'라 불리는 규범화된 형식으로 글을 학술적 글을 썼다. 동시에 그들은 공통적으로 세계를 '비역사적' 혹은 '탈역사적'으로 인식했다. 게다가 그들은 다른 저자와 논서를 언급하거나 인용할 때, 매우 불명확한 참조정보만을 제시하는 문화를 공유했다. 학자는 이름 대신 '어떤 이들'로 지칭되었으며, 인용문의 경우에도 서명으로 전거를 확인해주는 경우가 매우 드물었다. 그리하여 연구자가 맞이하는 가장 큰 난관 중 하나로, 논서의 비역사성이 꼽히게 되었다.
이런 상황 속에서 '한 문헌이 산출된 역사적 맥락'은 현대의 인도철학 연구자들의 주요 연구 대상이 되었다. 그러나 역사적 위치에 대한 연구들 결과들은 파편화 되어 있다. 이런 상황 속에서 저자는, 학계의 독법을 종합화하는데 있어 TEI 가이드라인에 따른 텍스트 인코딩이 유효할 것이라 주장한다.
GRETIL(Göttingen Register of Electronic Texts in Indian Languages)는 인도 문헌 연구자들이 가장 많이 찾는 디지털 문헌 저장소이다. 이곳에 TEI 가이드라인이 도입된 배경은 다음과 같다.
시간이 흘러, 2019년도부터 점차 TEI 가이드라인을 준수한 XML 파일이 등재되기 시작했으나 많은 문제가 있다. 요약하자면 다음과 같다.
SARIT의 가이드라인이 인도학자들에게 상당한 의의를 갖지만, 여전히 지적 네트워크 속에서 문헌의 위상을 평가하는데에는 적합하지 않다. 그러므로 SRIT과 다른 방식으로 TEI를 맞춤제작하여, 또다른 인코딩 스키마를 정의해야 한다.
논문의 저자는 언급, 인용, 개념어에 대한 정보가 기록될 추가적인 층위(Layer)가 필요함을 주장하는 것이다. 내가 인도철학 연구자가 될 가능성이 희박하므로, 이러한 새로운 인코딩 스키마가 인도의 문헌을 기반으로 하는 연구자들에게 큰 가치를 갖고 있다고만 이해하고 넘어가도록 하겠다. 구체적으로는 '3. 인도철학의 역사적 이해를 위한 데이터'(함형석, 2024, pp.55-57)를 참고하길 바란다.
TEI 가이드라인은 텍스트의 특징들을 기록하기 위한 범용적인 요소(element)와 속성(attribute)들 을 제안한다. TEI 사용자들은 TEI 컨소시엄이 가이드라인에 정의해 놓은 700여개의 요소(태그)들을 모두 사용하거나 고려할 필요가 없는데, 이는 TEI 가이드라인이 인코더가 텍스트에서 발견할 수 있는 모든 특징들을 망라하려 하기 때문이다. 인코더는 자신의 목적에 맞게 자신이 사용할 요소들을 선별하고 그것이 취할 수 있는 속성과 속성값을 정의해야 하는데 이러한 행위를 ‘TEI 커스터마이제이션’(customization)이라 부른다. (함형석, 2024, p.57)
아주 명료한 설명이다. 이후 TEI에 대한 설명이 길게 이어지나, 이 문서의 목적이 TEI 커스터미이제이션의 이해가 아니므로 아주 짧게 핵심 내용만 요약하도록 하겠다.
"TEI 커스터마이제이션은 인코딩에 사용하는 어휘에 대한 설명을 포함하는 문서화 작업이며, ROMA(https://roma.tei-c.org/)라 불리는 보조 도구를 통해 수행할 수 있다."
원칙과 원칙 설명을 있는 그대로 인용하겠다.
- 선택한 요소와 속성에 대한 TEI의 일반적인 정의가 인도 논서의 구체적인 상황에 적용될 수 있어야 한다.
- SARIT이 사용을 규정한 요소는 사용하지 않는다.
- 하나의 요소는 하나의 특징을 인코딩하는 데에만 쓰여야 한다.
원칙 1은 필자가 선택한 TEI 요소와 속성에 대한 이해를 TEI 가이드라인에 부합시키기 위한 규정이다. 원칙 2는 SARIT의 인코딩과 필자의 인코딩이 하나의 파일 내에서 양립할 수 있도록 하기 위한 규정이다. 원칙 3은 인코딩시, 또는 인코딩된 파일을 읽을 때 발생할 수 있는 의미상의 애매모호함을 배제하기 위한 규정이다.
추가 요소는 전적으로, 잘 훈련된 인도철학 연구자가 사용하는 해석적 층위의 지식을 반영하므로, 본 리뷰 문서에서는 어떤 태그를 추가했는지만 정리하겠다.
| 의미 | 요소 또는 속성 | 예시 및 속성목록 |
|---|---|---|
| 발화주체 | <said> | <said ana="" who=""> |
| 언급정보 | <rs> (referencing string) | <rs type="" key="" ana=""> |
| 인용정보 | <q> (quoted) | <q type="" source="" ana=""> |
| 개념어 사용정보 | <term>(개념어) <gloss>(해설) |
<term key="" target=""> <gloss key="" target=""> |
| 저자의 사유를 응축한 논증식 표기 | <seg> | <seg type="" function=""> |
저자는 기대효과를 둘로 분리하여 설명한다. 특정 문서를 해석적 층위를 포함하여 인코딩 했을 때 얻을 수 있는 효과, 다수의 문서가 해석적 층위를 포함하여 인코딩 되었을 때 얻을 수 있는 효과.
흥미로운 논문이다. 무엇보다 교육적이라 좋다. 이 논문을 통해 'TEI'의 개념을 처음 접했다. (이전에 리뷰한 'Linked data, what and how? (Park, Jin Ho, 2024)'를 통해 XML에 기반해 발전한 링크드 데이터를 배웠지만, 그것이 TEI와 같은 구체적이고 실용적인 가이드라인 집합으로서 관리되고 있다는 것은 처음 알게 되었다.)
자신이 몸담은 도메인의 연구 커뮤니티를 향해 던지는 제안. 멋지다. 달리 설명할 길이 없다. 애정이 느껴진다. 더 나은 미래를 위한, 건설적인 방법론의 제안. 정말 인상깊게 읽었다.