OmegaT 3.0 - Guía de usuario

Appendix D. Engadido de Tokenizer

Introdución

Os tokenizers (ou stemmers) melloran a calidade das coincidencias recoñecendo palabras inseridas nos textos de orixe e na memoria de tradución. Tamén melloran a coincidencia do glosario.

Un stemmer para o inglés, por exemplo, debería identificar a cadea «cat» coma base da cadea «cats»(e posibelmente «catlike», «catty», etc.) e «stem» coma base de «stemmer», «stemming» e «stemmed». Un algoritmo de stemming reduce as palabras «fishing», «fished», «fish» e «fisher» á palabra raíz, «fish». Isto é especialmente útil no caso de linguas que empreguen prefixos e sufixos para a creación de palabras. Tomando un exemplo do esloveno, aí vai a palabra «bo» en todas as formas gramaticalmente correctas:

  • lep, lepa, lepo (singular: masculino, feminino e neutro)

  • lepši, lepša, lepše . (formas plurais correspondentes ao comparativo, nominativo, masculino, feminino e neutro do adxectivo)

  • najlepših (superlativo, plural, xenitivo para o masculino, feminino e neutro)

Instalación e uso

Os tokenizers están incluídos en OmegaT. OmegaT selecciona automaticamente un tokenizer para as linguas de orixe e destino segundo a configuración das linguas do proxecto. É posible seleccionar outro tokenizer dunha versión diferente desde a xanela de Propiedades do proxecto.

Incompatibilidades

OmegaT non iniciará se hai tokenizers no cartafol /plugin. Elimine todos os tokenizers do cartafol /plugin antes de iniciar OmegaT.