// Está a ler...

Desenvolvemento

Xustificación das escollas de etiquetas de TBX

As escollas das etiquetas de TBX veñen determinadas polas necesidades do noso sistema de xestión de terminoloxía. Para dito sistema de xestión de terminoloxía precísanse varios glosarios, cada glosario ten varios conceptos, e cada concepto pode ter varias definicións (só unha por idioma e concepto), e tamén se precisan varias traducións por concepto (podendo haber esta vez varias traducións por idioma e concepto). Os conceptos tamén terán asociadas varias ligazóns para ampliar a información (varias por idioma). Ademais tamén se precisan ter definidos varios idiomas.

Unha vez enumeradas as entidades necesarias pasemos a enumerar os atributos de ditas entidades:

Cada glosario ten un nome e unha descrición.

Cada concepto ten un identificador único, un ámbito (que ven sendo outro concepto do mesmo glosario), pode ter varios conceptos que convén consultar tamén (conceptos relacionados), e tamén pode ter un concepto pai.

Cada ligazón ten un tipo (imaxe, páxina da Wikipedia...), o enderezo da ligazón, e unha pequena descrición.

Cada definición ten un texto de definición.

De cada idioma interesa gardar o seu código ISO 639.

Por cada tradución podemos ter o texto da tradución, un identificador único, a categoría gramatical, o xénero da tradución (se é aplicable), o número gramatical da tradución (se é aplicable), un campo que indique se é abreviatura ou acrónimo, unha nota explicativa, exemplos de uso (creados polo terminólogo), ligazóns a exemplos de uso real (quizais a un corpus), e ademais disporase dun campo que indique se a tradución está finalizada ou está en construción, e tamén se gardará o estado da tradución (se está recomendada, desaconsellada ou prohibida) e maila razón pola que está nese estado (unha simple cadea de texto) que non se aplica ao estado recomendada.

Unha vez expostas as necesidades, leuse o estándar TBX ISO 30042 en busca de elementos que forneceran ditas características e atopouse polo menos unha etiqueta para cada necesidade agás para algunha. Antes de continuar débese comentar que TBX almacena a información agrupándoa por conceptos, e dentro de cada concepto parte da información gárdase ao comezo do concepto e outra parte (dependente do idioma) separase segundo os diferentes idiomas, e dentro de cada sección de idioma separase por traducións. É dicir, ten unha estrutura de tres niveis: nivel de concepto, nivel de idioma, e nivel de tradución.

A continuación indicamos unha lista das necesidades e a etiqueta escolleita para cada necesidade indicando o nivel no que se vai empregar:

- Nome do glosario: se equiparamos glosario con ficheiro TBX o nome do glosario é o título do ficheiro TBX, é dicir, a etiqueta <title>. Vai na cabeceira do ficheiro.

- Descrición do glosario: se volvemos equiparar glosario a ficheiro TBX entón podemos usar unha etiqueta <p> dentro da etiqueta <sourceDesc>. Vai na cabeceira do ficheiro.

- Concepto: a etiqueta <termEntry> de TBX representa un concepto. Esta etiqueta delimita o nivel de concepto.

- Identificador do concepto: a etiqueta <termEntry> leva un atributo “id”.

- Ámbito do concepto: o estándar TBX define a etiqueta <descrip> co valor “subjectField” no atributo “type” como segue <descrip type="subjectField">nome do ámbito</descrip> para representar o ámbito dun concepto. Ao non haber referencia a outro concepto temos que usar algunha das traducións do concepto ámbito para indicar na etiqueta do ámbito. Vai no nivel de concepto.

- Conceptos relacionados: o estándar TBX propón o uso da seguinte etiqueta <ref type="crossReference" target="cid-23">algún texto...</ref> onde “cid-23” é o valor do atributo “id” do concepto relacionado, e “algún texto...” sería algunha das traducións do concepto relacionado. Vai no nivel de concepto.

- Concepto pai: TBX define o uso da etiqueta <descrip> co valor “broaderConceptGeneric” no atributo “type” e un texto entre as etiquetas de apertura e de peche. Ademais permite o uso do atributo “target” para refirirse ao concepto pai.

Exemplo: <descrip type="broaderConceptGeneric" target="cid-23">concepto pai</descrip>


- Ligazón: segundo o estándar TBX a etiqueta que define ligazóns externas ao propio ficheiro TBX é a etiqueta <xref>. Esta etiqueta ten a seguinte estrutura: <xref type="xGraphic" target="sports/cricket/bat.jpg">bate de cricket</xref> onde “type” é o tipo, “target” a ligazón e o texto entre as etiquetas de apertura e peche é unha pequena descrición. Vai no nivel de idioma.

- Tipo da ligazón: a etiqueta <xref> ten un atributo “type” que define o tipo de ligazón. Dito atributo “type” pode tomar o valor “xGraphic” en caso de ser unha imaxe, “externalCrossReference” en caso de ser unha ligazón a un sitio externo (por exemplo á Galipedia). Pode tomar outros valores que polo de agora non se consideraron de interese. Enderezo da ligazón: a etiqueta <xref> ten un atributo “target” que ven sendo precisamente o enderezo da ligazón.

- Descrición da ligazón: a descrición da ligazón pódese pór entre as etiquetas <xref> de apertura e de peche.

- Definición: para gardar as definicións úsase a etiqueta <descrip> co valor “definition” atributo “type”. Vai no nivel de idioma. Exemplo: <descrip type="definition">nome alternativo dunha persoa...</descrip>

- Texto da definición: o texto da definición ponse entre as etiquetas <descrip> de apertura e peche.

- Idioma: en TBX úsase a etiqueta <langSet> para representar os idiomas, aínda que non se garda ningún listado exhaustivo dentro do ficheiro. É dicir, se hai algunha etiqueta <langSet> para un idioma determinado en algunha parte do ficheiro TBX, entón o idioma está definido. Dentro do mesmo concepto só pode aparecer unha vez por cada idioma, pero pode aparecer en tódolos conceptos. É imprescindible que haxa unha etiqueta <langSet> por cada <termEntry>. Esta etiqueta delimita o nivel de idioma.

- Código do idioma: a etiqueta <langSet> ten un atributo “xml:lang” que ten como valor algún código ISO 639. Exemplo: <langSet xml:lang="gl">

- Tradución: o estándar TBX define dúas etiquetas diferentes para delimitar o nivel de tradución: <tig> e <ntig>. A etiqueta <tig> fornece tódalas características necesarias ao igual que a etiqueta <ntig>, pero esta última introduce moitas outras características innecesarias que ademais de complicar a estrutura do ficheiro tamén aumentan o seu tamaño. Ademais no estándar TBX-Basic só se usa a etiqueta <tig>. Polo tanto decidiuse non utilizar a etiqueta <ntig>.

- Texto da tradución: o texto da tradución vai entre a apertura e o peche a etiqueta <term> que está no nivel de tradución, é dicir, dentro da etiqueta .

- Identificador da tradución: a etiqueta <term> ten un atributo “id” no cal se vai gardar dito identificador. Exemplo: <term id="tid-59">xanela</term>

Exemplo: <termNote type="partOfSpeech">noun</termNote>


- Categoría gramatical: para gardar a categoría gramatical úsase a etiqueta <termNote> indicando no atributo “type” o valor “partOfSpeech”. O estándar TBX non define unha lista de categorías, pero o estándar TBX-Basic (un subconxunto de TBX simplificado que nos parece incompleto) si define unha pequena lista a cal imos usar e que completaremos de ser necesario. Vai no nivel de tradución.

Exemplo: <termNote type="grammaticalGender">masculine</termNote>


- Xénero da tradución: TBX especifica que para gardar o xénero se debe usar a etiqueta <termNote> indicando o valor “grammaticalGender” no atributo “type”. Ao igual que no caso da entrada anterior, TBX non define unha lista de xéneros así que imos empregar a definida por TBX-Basic. Vai no nivel de tradución.

Exemplo: <termNote type="grammaticalNumber">plural</termNote>


- Número gramatical: TBX indica que para gardar o número gramatical se debe usar a etiqueta <termNote> co valor “grammaticalNumber” no atributo “type”. Para os números usaremos a lista definida en TBX-Basic. Intentarase indicar o número só cando poida levar a confusión non facelo. Vai no nivel de tradución.

Exemplo: <termNote type="termType">acronym</termNote>


- Acrónimo: Para indicar que a tradución é un acrónimo usarase a etiqueta <termNote> co valor “termType” no atributo “type” e o texto “acronym” entre as etiquetas de apertura e peche. Vai no nivel de tradución.

Exemplo: <termNote type="usageNote">Non abusar desta tradución...</termNote>


- Abreviatura: É igual ao caso do acrónimo pero poñendo agora “abbreviation” entre as etiquetas de apertura e de peche. Vai no nivel de tradución. Nota explicativa da tradución: Para as notas TBX define a etiqueta <termNote> co valor “usageNote” no atributo “type” co texto da nota entre a etiqueta de apertura e maila de peche. Vai no nivel de tradución.

Exemplo: <descrip type="context">texto do exemplo</descrip>


- Exemplo de uso: Para os exemplos de uso confeccionados ad-hoc vaise empregar a etiqueta <descrip> co valor “context” no atributo “type” e o texto do exemplo entre as etiquetas de apertura e de peche. Vai no nivel de tradución. Desbotouse o uso de <descrip type="sampleSentence"> debido a que non ven tanto en TBX como en TBX-Basic, e tamén se desbotou <descrip type="example"> debido a que non esixe incluír o texto da tradución no exemplo.

Exemplo: <xref type="corpusTrace" target="referenciaCorpus">Corpus Mancomun</xref>


- Ligazón a exemplo de uso real: Para referencias a corpus. TBX indica que ditas referencias se deben indicar usando a etiqueta co valor “corpusTrace” no atributo “type”. Vai no nivel de tradución.

Exemplo: <termNote type="processStatus">provisionallyProcessed</termNote>


- Tradución finalizada?: Vaise usar a etiqueta <termNote> co valor “processStatus” no atributo “type” e o texto “provisionallyProcessed” entre as etiquetas de apertura e de peche para indicar que a tradución aínda está en debate. En caso de non estar en debate simplemente non se pon a etiqueta, aínda que TBX si defina os valores “unprocessed” e “finalized”. Vai no nivel de tradución.

Exemplo: <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>


- Estado da tradución: Para indicar o estado da tradución farase do xeito que especifica TBX e non como o fai TBX-Basic xa que se está usando un subconxunto de TBX máis amplo que TBX-Basic. TBX especifica o uso da etiqueta co valor “administrativeStatus” no atributo “type” e o texto que indica o estado entre as etiquetas de apertura e de peche para gardar o estado da tradución. TBX define unha lista de estados dos cales só imos usar tres: “preferredTerm-admn-sts” para indicar que está recomendada, “admittedTerm-admn-sts” para indicar que o seu uso está desaconsellado en favor da tradución preferida, e “deprecatedTerm-admn-sts” para indicar que o seu uso está prohibido (por ser lusismo, castelanismo...). Vai no nivel de tradución.

Exemplo: <note>lusismo</note>


- Razón do estado: TBX non define ningún xeito de gardar a razón do estado. Polo tanto decidiuse usar a etiqueta <note> para este fin. Como esta etiqueta se usa tamén para gardar notas estase considerando usar a etiqueta <termNoteGrp> para agrupala ca etiqueta que indica o estado da tradución. Hai que ter en conta que non se especifica a razón se a tradución está recomendada. Vai no nivel de tradución.

Leandro Regueiro