Los principios sobre los que se sustenta el sistema EpiDoc reúnen convenciones y métodos de edición tradicionales y modernos para epigrafistas.
A lo largo del último siglo, los epigrafistas han batallado con los problemas derivados de la representación de información no verbal en sus textos. Hasta finales del siglo XIX, los editores elaboraban una edición diplomática del texto acompañada por una representación gráfica de la pieza, práctica que, sin embargo, se volvió cada vez más infrecuente. Por otra parte, las casas editoriales se mostraron reacias a publicar una o más imágenes por cada epígrafe, lo que implicó una considerable pérdida de información. Las convenciones para indicar texto perdido, abreviaturas, etc., fueron desarrolladas con gran esfuerzo, solapándose, hasta cierto punto, con las utilizadas en papirología y paleografía. Sobre su uso, y si bien existe común acuerdo entre los investigadores desde la década de 1930, todos los epigrafistas han tenido que lidiar con los problemas que conlleva trasladar las convenciones a medios electrónicos (por ejemplo, encontrar una fuente que permita añadir puntos bajo las letras), aunque muchos de nosotros ya nos hemos adaptado a estos nuevos inconvenientes.
La dificultad de transmitir estas convenciones y, en particular, la complejidad de representar los caracteres griegos en la web, ha provocado un retraso en la publicación de corpora completos en línea. En su lugar, han sido creadas bases de datos enormemente ricas, entre las que destacan:
Véase también: Conformance (EpiDoc Compatibility).
Todos estos logros han estado condicionados, por tanto, por el estado de las tecnologías existentes y su evolución a lo largo del siglo XX. Objetivo de EpiDoc es explotar las nuevas tecnologías en aras de alcanzar los propósitos tradicionales de la epigrafía. Por ello, muchos de los procesos arriba descritos han supuesto una lucha contra las limitaciones tecnológicas (por ejemplo, en publicaciones impresas) con el propósito de responder al mayor número posible de exigencias de carácter epigráfico. Durante este periodo, y a menos que se asumiesen elevados costes, resultaba cada vez más complicado convencer a las editoriales tradicionales para que aceptasen las condiciones relativas a la inserción de información meta-textual. De forma simultánea, las expectativas con respecto al volumen de información que debería acompañar al texto han aumentado enormemente: además de la información relativa a los aspectos formales, lo normal es añadir una reproducción fotográfica.
En los últimos 15 años, los investigadores se han enfrentado, por lo general, a problemas similares en lo referente a la incorporación de meta-datos dentro de textos en formato electrónico, surgiendo así herramientas que simplifican cada vez más esta labor y que, a la vez, revalorizan los resultados. Los procesadores de textos, habituales desde la década de 1980, nos permiten controlar el formato de los escritos utilizando una señalización que, en la actualidad, es insertada automáticamente por el propio software. A partir de 1980, la mayor exigencia en las necesidades técnicas por parte de vastas colecciones documentales (escritos legales, documentación industrial, publicaciones comerciales,...) conllevaron la investigación de nuevas formas de inserción de un amplio repertorio de características e instrucciones. Al principio, se hizo especial hincapié en insertar órdenes de formateo, aunque pronto surgieron métodos para incluir información semántica más compleja en lo que a la estructura del documento y a su contenido se refiere. Un sencillo ejemplo de esto sería el señalar un título de libro como título, en lugar de destacarlo en cursiva. Así, el uso más abstracto de una señalización permite establecer una separación entre estructura y presentación, donde la estructura es propia al género del documento, mientras que la presentación puede variar dependiendo de la forma de publicación. En cierto modo, pues, este cambio representa un retorno al estadio anterior, en el cual los autores trataban con la sustancia del texto y todos los detalles de presentación se solucionaban durante el proceso de publicación, distinción que se ha perdido con la llegada de los sistemas de reproducción fotográfica.
Los protocolos surgidos de este último esfuerzo se estandarizaron a finales de los años ochenta bajo la denominación Standard Generalized Markup Language, si bien recientemente se les ha dado una forma más sencilla y flexible para su uso en la web, conocida como XML: Extensible Markup Language. Hoy en día, el XML es utilizado frecuentemente por los expertos en un gran número de disciplinas humanísticas para recopilar, representar y conservar materiales de investigación empleados con multitud de propósitos.
Los atractivos del XML para los epigrafistas son, por consiguiente, considerables. Por ejemplo, es posible señalar el texto perdido como tal, para luego presentarlo entre corchetes. Al mismo tiempo, es posible hacer una búsqueda sobre texto que no ha sido señalado como perdido (es decir, sólo sobre términos atestiguados). Las letras inciertas también pueden señalarse como tales, y decidir en otro momento si editarlas con un punto debajo o de otro modo. Durante la edición, es posible además seleccionar palabras como términos de búsqueda, lo cual permite crear índices que aumentan de forma simultánea al incremento de la propia colección. Sin embargo, en las condiciones actuales, lo esencial sería emular las ‘convenciones de Leiden’, es decir, acordar los equivalentes electrónicos de los distintos signos diacríticos usados. En primer lugar, este gesto resultaría extremadamente útil no sólo por el ahorro de tiempo y trabajo; sino también, por el hecho de ofrecer una homologación coherente (aunque exenta de uniformidad). No son pocas las ventajas: por un lado, el sistema expone la información al usuario igual que una página impresa; mientras que por el otro, los documentos editados de este modo y publicados en formato electrónico pueden ser utilizados de forma conjunta con posterioridad, aunque hayan sido preparados separadamente por diferentes equipos.
La necesidad de acordar estándares no se limita a la epigrafía. Desde 1987, un grupo internacional de investigadores (principalmente del ámbito de las humanidades), han unido esfuerzos para desarrollar y refinar un conjunto de guías para describir la estructura y el contenido de los documentos. Los resultados de esta labor se han plasmado en la producción de un lenguaje de codificación realizado en XML, y denominado como el propio grupo: TEI, o Text Encoding Initiatve.
La Text Encoding Iniciative (TEI) es un trabajo de investigación destinado a definir un lenguaje de codificación que englobe, de forma general, las necesidades de los investigadores de humanidades. Dos propósitos fundamentales motivan el desarrollo de TEI. El primero de ellos es permitir a los investigadores la transcripción de sus textos en formato digital, usando un lenguaje descriptivo que refleje los diferentes términos y conceptos analíticos, usuales y necesarios en las disciplinas de humanidades. El segundo objetivo es permitir a los investigadores compartir sus resultados con la comunidad científica de forma inteligible, usando para ello un lenguaje descriptivo común.
Podemos pensar en el lenguaje de codificación TEI como algo parecido al lenguaje humano: un núcleo de términos comunes en el centro, rodeado por un vocabulario menos difundido, como localismos, términos especializados, y otras variantes. En el centro de TEI están los términos y conceptos comunes empleados por investigadores procedentes de un gran número de disciplinas: elementos como párrafos, divisores de textos, encabezamientos, listas, etc. Otros elementos más especializados se agrupan conjuntamente de acuerdo a sus funciones: por ejemplo, signos para la codificación detallada de nombres, signos para representar las características de un manuscrito, signos para reproducir la estructura de diccionarios, etc. TEI está intencionalmente organizada de esta forma, en módulos, para que los investigadores que trabajen en áreas específicas de conocimiento puedan emplear únicamente los componentes relativos a su trabajo, omitiendo el resto. TEI puede, por tanto, ofrecer una gran libertad de trabajo sin abrumar a los investigadores o a los proyectos con la necesidad de aprender vastos conocimientos, la mayor parte de los cuales resultan pertinentes sólo a ciertas disciplinas. Así, el sistema TEI de codificación del lenguaje puede ser enfocado de forma directa a un ámbito o tarea específica, limitándose a un aspecto concreto y esencial de un proyecto.
Como un lenguaje humano, TEI puede utilizarse de forma extensa, empleando un vocabulario rico y lleno de matices, con una codificación detallada que permita describir diferentes fenómenos textuales; aunque también puede utilizarse de forma sencilla, empleando sólo conceptos esenciales que representen exclusivamente elementos textuales básicos: secciones, encabezamientos y párrafos. Cuanto más detallada sea la codificación, más posibilidades de tratamiento existen; aunque factores como el tiempo, los costes, el personal disponible y la experiencia particular pueden limitar el nivel de codificación.
Además de proveer de un sistema de codificación que los investigadores puedan usar en su forma original, TEI puede ser ajustada por los propios proyectos de investigación, creando versiones “a medida”, que respondan a necesidades específicas. Como estas versiones particulares de TEI operan dentro del marco general del sistema, no es necesario reinventar el núcleo común: estas pueden emplear un amplio repertorio de términos y conceptos, evitando la innecesaria labor de crearlos. Por otra parte, y como TEI ofrece un marco común para crear y describir versiones particulares, estas pueden ser compartidas de forma sencilla y plenamente significativa. Así, y aunque procedentes de diversas disciplinas, los grupos de investigación pueden expresar con claridad los objetivos y métodos que caracterizan su trabajo, y las diferencias que los distinguen de otros, pese a proceder de áreas afines. En lugar de emplear enfoques ininteligibles, diversos proyectos de investigación pueden producir resultados cuyas diferencias sean el resultado de desacuerdos reales, más que de divergencias fortuitas.
Dentro de este marco general y desde el año 2000, la comunidad EpiDoc ha estado trabajando para desarrollar una versión específica de las normas TEI, con el objetivo de apoyar las necesidades propias de los epigrafistas. La idea fue promovida por Tom Elliott, un historiador de la antigüedad de la Universidad de Carolina del Norte (campus de Chapel Hill), con un doble propósito: explotar al máximo los beneficios del trabajo ya realizado y asegurar que los epígrafes se trataban de la forma más próxima posible a como se trataban otro tipo de textos. Así, EpiDoc elimina elementos irrelevantes del núcleo de TEI, añadiendo los componentes necesarios para los tipos específicos de transcripción, análisis, descripción y clasificación, esenciales para el trabajo epigráfico. El resultado es, simplemente, un lenguaje todavía más potente, que puede ser empleado para señalar todas las características de las inscripciones y también para representar la información relativa al objeto que porta el epígrafe.
Para acompañar el lenguaje de codificación EpiDoc, la comunidad EpiDoc ha creado también una serie de líneas maestras y herramientas de software, así como documentación que describe cómo usar el lenguaje de codificación, los instrumentos y el resto de elementos del método EpiDoc. El propósito es establecer un marco general fácil de aprender y de usar, incluso por parte de investigadores que carezcan de una experiencia y/o asistencia de carácter técnico. Aunque pueda parecer improbable, la labor es en realidad similar al aprendizaje de la edición de un epígrafe estándar con los signos existentes.
El grupo ha trabajado para tratar de representar todas las convenciones epigráficas en uso, ampliando la guía para abordar los varios aspectos que deben ser representados en una publicación de carácter epigráfico, incluyendo:
Véase también: Estructura del documento.
Actualmente, existen otras áreas en estudio, como aquellas relativas al desarrollo de la interoperabilidad. Así, se ha desarrollado una herramienta de software destinada a convertir textos editados según el sistema tradicional epigráfico en EpiDoc XML, el llamado Chapel Hill Electronic Text Converter (CHETC). Otras áreas incluyen el uso de léxicos especializados. Por ejemplo, el proyecto de las inscripciones de Aphrodisias está trabajando estrechamente con el Lexicon of Greek Personal Names, con el objetivo de garantizar la documentación exhaustiva y conforme a las normas en uso del mismo.
La labor, dirigida por el Dr. Elliott, ha sido asumida por diferentes investigadores que trabajan en estrecha colaboración, manteniendo además un contacto regular con el resto de profesionales. El equipo se ha beneficiado de las ventajas de un proyecto EpiDoc ya consolidado, las Vindolanda Tablets on line, y de otros dos proyectos que se encuentran actualmente en curso: el US Epigraphy Project (USEP) (con el apoyo de las universidades de Brown, Princeton y Rutgers), y el Inscriptions of Aphrodisias Project (InsAph) (con el apoyo del Arts and Humanities Research Council). De hecho, el generoso apoyo de AHRC permitió celebrar un workshop intensivo en Marzo de 2006, donde fue perfeccionada la presente guía.