Деликатно въведение в маркирането с xml за епиграфи

2022-10-07

Концепцията зад EpiDoc събира на едно място в полза на епиграфите както традиционни, така и напълно модерни методи за редактиране и установени практики.

Установени епиграфски практики

През последния век епиграфите се сблъскаха с проблеми, свързани с това как да се представи невербалната информация чрез писмения текст. До края на 19 в. издателите обикновено са създавали факсимиле на текста, но това постепенно е ставало все по-слабо разпространено и издателите не демонстрирали еднаква готовност да предоставят пълни фотографски данни за всеки текст. Установените практики, които са мъчно създадени да представят липсващ текст, съкращения и т.н. са били малко или много съгласувани през 30-те г. на 20в. и в известна степен се припокриват с тези, използвани в папирусологията и палеографията. На всички епиграфи им се налага да се справят с трудностите, свързани с това да се пренесе информацията в една електронна среда - например, с това да се намери шрифт, който би позволил слагането на точки под буквите. Повечето от нас обаче вече са привикнали към тези нови ограничения.

Трудността да се предадат такива условности и най-вече гръцките символи в пълноценни шрифтове и в Мрежата досега задържаше публикацията на пълни епиграфски текстове онлайн. Вместо това бяха създадени изключително богати колекции за търсене, сред които най-забележителни са следните:

Виж също: Съответствия (EpiDoc Съвместимост).

Всички тези разработки се определяха от развитието на съществуващите технологии, тъй като те се усъвършенстваха през 20в. Стремежът на EpiDoc бе да се възползва от нови и развити технологии за традиционните цели на епиграфиката. Много от задачите, споменати по-горе, включваха борба срещу технологичните стандарти - например в печатните публикации, за да приспособим възможно най-много от нашите нужди. През този период постепенно ставаше все по-трудно да бъдат убедени конвенционалните издатели да посрещнат нашите изисквания да бъде включена мета-текстуална информация, освен на много висока цена. В същото време очакванията към обема на информацията, която би съпътствала един текст, се увеличиха значително; също като информацията за физическите детайли, фотографската илюстрация се превърна в стандарт.

През последните 15 години учените обичайно се сблъскваха с подобни изисквания да включват метаданни в текстовете в електронната им форма и се появиха средства, които да направят това все по-лесно, а резултатите - все по-ценни. Софтуерът за обработка на думи, който е известен още от 80-те г. на 20в. ни позволява да контролираме форматирането на нашите текстове, като използваме маркиране, което до сега бе незабележимо предоставено от софтуера. По-взискателните нужди на колекциите от документи с голям размер - правни документи, индустриална документация, комерсиално издаване - доведоха през 80-те до откриването на начини за включване на по-широк набор от информация и инструкции вътре в електронните текстове. В началото акцентът бе върху това да се включат инструкции за форматиране, но скоро се появиха и методи за включване на по-сложна семантична информация за структурата на документа и дори за неговото съдържание. Пример за това е маркирането на заглавие на книга именно като заглавие, а не просто то да бъде маркирано като курсив. Употребата на това по-абстрактно маркиране позволява едно разделяне на структура и представяне, така че структурата да е сравнително основна за жанра на документа, докато представянето може да се различава в зависимост от формата на публикацията. В известен смисъл тази промяна представлява завръщане към един по-ранен метод, в който авторите са се занимавали със същността на текста, а всички детайли по презентацията му се изготвяли в процеса на публикация - едно разделение, което се заличава в епохата на готовите копия.

Протоколите, които бяха създадени чрез споменатите усилия, бяха унифицирани в края на 80-те години като Стандартизиран генерализиран маркиращ език (Standard Generalized Markup Language) и наскоро им бе дадена по-опростена и по-гъвкава форма за употреба в Световната мрежа като XML: Extensible Markup Language. XML сега се използва от учените в широк кръг от хуманитарни дисциплини, за да улови, представи и запази изследвания за различни по обхват цели.

И така, привлекателните страни на XML за епиграфите са значителни. Например: липсващият материал може да бъде маркиран като такъв и след това представен между квадратни скоби; в същото време търсенето може да се ограничи само в това да открива текст, който не е маркиран като липсващ (и по този начин да предоставя само изрично засвидетелствани текстове). Неясните букви могат да бъдат обозначени като такива, а сетне е възможно да се вземе решение дали да бъдат представени с точка под тях или по някакъв друг начин. Думите могат да бъдат систематизирани по време на обработката, така че да бъдат създадени индекси, които да нарастват с нарастването на колекцията. Но най-важното при това положение е да се повтори Лайденската практика, а именно - да се съгласуват електронните еквиваленти на разнообразните сигли, които използваме. На първо място това е ценно дори само за да ни спестява време и усилия, но също така самата единност, без да бъде натрапвана еднаквост, е ценна на свой ред. Тя не само подпомага потребителя, както на отпечатаната страница, но освен това документите, създадени по този начин и публикувани електронно, биха могли да бъдат използвани заедно, дори когато са били подготвени поотделно.

Нуждата от съгласувани стандарти не се ограничава единствено по отношение на епиграфиката. От 1967г. международен консорциум учени, занимаващи се в по-голямата си част в полето на хуманитарните науки, работят заедно за развиването и усъвършенстването на набор от указания за описване на структура и съдържание на документи. Резултатът от това начинание доведе до създаването на кодиращ език, реализиран чрез XML и описан от името на групата - TEI, Text Encoding Initiative.

TEI за епиграфи: Какво е това и защо да го използваме?

TEI (The Text Encoding Initiative) е опит за изследване, насочено към дефинирането на кодиращ език, който покрива нуждите на учените-хуманитаристи в най-общ смисъл. Има две основни цели, които обуславят развитието на TEI. Първата е необходимостта да се даде възможност на учените да представят материалите на своите изследвания в дигитална форма, като използват дескриптивен език, който имитира видовете аналитични термини и концепциии, познати и базови за хуманитаристиката. Втората цел е да се направи възможно учените да споделят по разбираем начин получените резултати, използвайки един познат и общ дескриптивен език.

Бихме могли да мислим за кодиращия език TEI като за подражаващ на човешкия език: ядро от общи термини в центъра, обгърнато от по-малко широка лексика, включително и местна употреба, специализирана терминология и други вариации. В ядрото на TEI са общите термини и концепции, които са широко споделяни от учените в повечето дисциплини: категории като параграфи, родови текстови разделения, заглавия, списъци и т.н. По-специализирани елементи са групирани заедно според употребата им: например, елементи за детайлно кодиране на имена, елементи за представяне на особености на манускриптите, елементи за улавяне на структурата на речниците и пр. TEI умишлено е организирана в модули по този начин, така че учените, които работят в специфични дисциплини да могат да използват само модулите, които се отнасят до тяхната работа, и да пропуснат останалите. Така именно TEI може да постигне голяма широта на употреба, без да натоварва отделните учени и проекти с необходимостта да се овладява много голямо поле, значителна част от което се отнася единствено до други дисциплини. Тъкмо напротив, кодиращият език TEI може много директно да бъде насочен към специфично поле или задача и може да бъде ограничен да предоставя нещата, които са съществени за работата на конкретния проект.

Също като един човешки език, TEI може да бъде използван така, че да си служи с богат и нюансиран речник, с детайлно кодиране, което описва огромно количество особености в текста, но би могъл да се използва и съвсем просто, служейки си единствено с няколко съществени понятия, които описват само най-основните данни за текста: раздели, заглавия, параграфи. Колкото по-детайлно е кодирането, толкова повече възможности има то да бъде използвано, но фактори като време, разходи, налични кадри и местни особености могат да поставят ограничения в постижимото ниво на детайлност.

В допълнение към предоставянето на кодираща система, която учените могат да използват в оригиналното й състояние, TEI също така предлага начин научните проекти да дефинират собствени версии за употреба вътре в общата рамка на TEI. Те могат да използват широко познатото му ядро от термини и понятия, като по този начин си спестяват ненужната трудност да ги измислят наново. И тъкмо защото TEI предоставя една обща рамка за създаване и описване на индивидуални подходи, те могат да бъдат споделяни лесно и с реален смисъл. Като резултат от това групи от учени в конкретни дисциплини могат да артикулират специфичните цели и методи, които характеризират тяхната работа, и разликите, които ги разграничават от други, работещи в подобни сфери. Вместо взаимно неразбираеми подходи, различните проекти могат да създават резултати, чиито различия да са плод по-скоро на реално различаващи се мнения, отколкото на прости случайни несъответствия.

Персонализацията EpiDoc: TEI за епиграфи

В тази рамка обществото EpiDoc работи от 2000г. за създаването на персонализирана версия на насоките на TEI, за да подпомогнат специфичните нужди на епиграфите. Идеята беше създадена от Том Елиът, специалист по антична история в Университета на Северна Каролина в Чапъл Хил. Целта беше както да се използват по най-пълноценния възможен начин постиженията, които вече са направени, така и да се гарантира, че описаните текстовете са третирани по начин, съответстващ на този, който е използван за други текстове, а не различен от него. Персонализацията EpiDoc премахва неуместните елементи от основното тяло на TEI и добавя материал за специфичните видове транскрипции, анализи, описания и класификации, които са същностно важни за епиграфската работа. Резултатът е един прост език, но с големи възможности, който може да бъде използван за отбелязването на всички значими особености на надписите, а също така представя и съпътстващата информация за самия епиграфски обект.

За да допълни кодиращия език EpiDoc, общността създаде също така набор от насоки за кодиране и софтуерни инструменти, както и документация, която описва как да бъде използван кодиращият език, инструментите и другите елементи от метода EpiDoc. Целта е да се установи една рамка, която е лесна за възприемане и употреба дори за учени без техническа подготовка или подкрепа. Това може би звучи невероятно, но начинанието е от същия порядък като това да се овладее знанието да се маркира стандартен епиграфски текст със съществуващата система от сигли.

Обществото работи за развитието на представянето на всички установени епиграфски понятия. То разшири труда си така, че да бъде приложим към различните полета, които биха могли да се представят в една епиграфска публикация, включително:

Виж още: Структура на документа.

Друга област, която активно се разработва, е създаването на оперативна съвместимост. Вече е създаден софтуерен инструмент за конвертиране на текстове от нормално епиграфско маркиране в EpiDoc XML (т.нар. Chapel Hill Electronic Text Converter (CHETC)). Други сфери включват употребата на авторитетна лексика. Например, работата по проекта "Надписите от Афродизиас" е тясно обвързана с Речника на гръцките лични имена, за да осигури пълно покритие и адекватна употреба.

Работата, водена от д-р Елиът, беше подемана от няколко различни учени, които работеха в тясно сътрудничество и в постоянен контакт с по-широко поле на специализация. Те очертаха опита на един вече осъществен EpiDoc проект, Vindolanda Tablets on line, и на два текущи проекта: US Epigraphy Project (USEP) (поддържан от Университетите Браун, Принстън и Рутгерс) и Inscriptions of Aphrodisias Project (InsAph) (поддържан от Arts and Humanities Research Council). Щедрата подкрепа на AHRC позволи провеждането на интензивния уъркшоп през март 2006г., където бяха установени тези насоки.

За тази страница работиха:

  1. Шарлот Руше, автор
  2. Джулия Фландърс, автор
  3. Полина Йорданова, преведе на български език
  4. Том Елиът, препратки към TEI-Lite и различни редакции по форматирането
  5. Габриел Бодар, поправи и актуализира много от линковете

EpiDoc version: 9.4

Date: 2022-10-07