jeste jednou devanagari

Arnost Stedry arnost at cs.cas.cz
Wed Apr 19 11:29:37 CEST 2006


dobry den, 

jde mi vpodstate jen o jeden text (zhruba 14 stran), nemohl bych vam ho 
poslat, ze byste zkusil sve konverze? 
rucnimu doznackovani se nebranim, jen se mi nechce vse prepisovat.

dekuji 

Arnost Stedry

Dne středa 19 duben 2006 10:30 Zdenek Wagner napsal(a):
> On Wed, 19 Apr 2006, Arnost Stedry wrote:
> > dobry den,
> >
> > nakonec jsem se rozhodl pro cestu pres velthusiovu transkribci (s tim, ze
> > casem asi udelam balim pro unicode).
> >
> > problem ktery ted resim je, ze mam kombinovany cesko sanskrtsky text v
> > unicode (cesky preklad
> > jogasuter) s pomerne velkym procentem aparatu. ten je sice jen v
> > transkribci, ale stejne mi napriklad writer2latex u nekterych pismen
> > odmitne provest prepis (nahradi je sekvencemi typu: [1E47?])
> >
> > text je wordu a openoffice je normalne a spravne zobrazi, takze pocitam,
> > ze problem bude nekde jinde.
> >
> > nemate nekdo zkusenost z podobnou konverzi? jedina pouzitelna vec kterou
> > jsem nasel je tento konvertor:
> >
> > http://convert.granthamandira.org/convert-online.php
>
> Ja delam koverzi z Wordu do LaTeXu pres OpenOffice tak ze ze souboru
> neco.sxw vytahnu content.xml a prozenu je vlastnim stylesheetem. Pouzivam
> Saxon 8 a XSLT 2.0. Protoze zpracovavam v zasade jen hole texty s
> minimalnim znackovanim, zachovavam tucne pismo, kurzivu a poznamky pod
> carou. Vse ostatni vyhazuji, protoze se stejne ode me ocekava, ze to
> graficky upravim nejak vhodne. Vyhodou je, ze pomoci <xsl:output-character
> ... /> mohu znaky, ktere LaTeX na vstupu nezna, prekonvertovat na TeXove
> sekvence. Vysledny soubor jeste prozenu perlem, jednak vycistim ruzne
> nectnosti (napr. cisto koverzi nekdy dostanu:
> \textit{t}\textit{e}\textit{x}\textit{t}
> \textit{k}\textit{u}\textit{r}\textit{z}\textit{i}\textit{v}\textit{o}\text
>it{u} coz nahradim: \textit{text kurzivou}) a funkci Text::Wrap upravim na
> radky rozumne delky pro dalsi editaci.
>
> Vse mohu poskytnout (ale mam to jen doma) a zalezi na Vas, jestli radeji
> vysledek doeditujete rucne, nebo nastudujete format souboru a doplnite
> sablony. Neni to tak slozite. Popis formatu OpenOffice ma asi 900 stran.
> Ja jsem si content.xml otevrel v Mozille a celkem snadno slo vystopovat,
> jak je to ulozeno.
>
> Trochu potiz bude s devanagarskym textem. V UNICODE se to zapisuje dost
> jinak nez ve Velthuisove transliteraci. Sprezku kra musite v UNICODE
> napsat jako ka + virama + ra, zatimco ve V.t. pisete pouze kra. Dve ruzne
> verze kta rozlisite ve V.t. pomoci prepinacu @sanskrit, @hindi resp.
> @modernhindi, zatimco v U. se sanskrtska verze zapise jako ka + virama +
> ta a moderni hindska verze pomoci ka + virama + ZW-J + ta. Lze se s tim
> vyporadat pomoci regularnich vyrazu, coz umi i XSLT 2.0.
>
> Ja jsem nedavno zpracovaval text v transliteraci pro ITRANS a navic byly v
> textu chyby. Udelal jsem to v perlu a stacilo na to nejakych 15
> regularnich vyrazu.
>
> > ktery je vcelku pouzitelny (ve dvou krocich), pouze musim nasledne vse
> > rucne doznackovat (cemuz bych se rad vyhnul).
> >
> > dekuji
> >
> > Arnost Stedry
>
> Zdenek Wagner
> e-mail: wagner at cesnet.cz
>
> see also http://hroch486.icpf.cas.cz/wagner/
>          http://icebearsoft.euweb.cz




More information about the csTeX mailing list