jeste jednou devanagari

Zdenek Wagner wagner at cesnet.cz
Wed Apr 19 11:47:58 CEST 2006


On Wed, 19 Apr 2006, Arnost Stedry wrote:

> dobry den,
>
> jde mi vpodstate jen o jeden text (zhruba 14 stran), nemohl bych vam ho
> poslat, ze byste zkusil sve konverze?
> rucnimu doznackovani se nebranim, jen se mi nechce vse prepisovat.
>
Muzete, doufam,, ze se k tomu vecer dostanu, az se vratim z hindstiny.

> dekuji
>
> Arnost Stedry
>
> Dne středa 19 duben 2006 10:30 Zdenek Wagner napsal(a):
> > On Wed, 19 Apr 2006, Arnost Stedry wrote:
> > > dobry den,
> > >
> > > nakonec jsem se rozhodl pro cestu pres velthusiovu transkribci (s tim, ze
> > > casem asi udelam balim pro unicode).
> > >
> > > problem ktery ted resim je, ze mam kombinovany cesko sanskrtsky text v
> > > unicode (cesky preklad
> > > jogasuter) s pomerne velkym procentem aparatu. ten je sice jen v
> > > transkribci, ale stejne mi napriklad writer2latex u nekterych pismen
> > > odmitne provest prepis (nahradi je sekvencemi typu: [1E47?])
> > >
> > > text je wordu a openoffice je normalne a spravne zobrazi, takze pocitam,
> > > ze problem bude nekde jinde.
> > >
> > > nemate nekdo zkusenost z podobnou konverzi? jedina pouzitelna vec kterou
> > > jsem nasel je tento konvertor:
> > >
> > > http://convert.granthamandira.org/convert-online.php
> >
> > Ja delam koverzi z Wordu do LaTeXu pres OpenOffice tak ze ze souboru
> > neco.sxw vytahnu content.xml a prozenu je vlastnim stylesheetem. Pouzivam
> > Saxon 8 a XSLT 2.0. Protoze zpracovavam v zasade jen hole texty s
> > minimalnim znackovanim, zachovavam tucne pismo, kurzivu a poznamky pod
> > carou. Vse ostatni vyhazuji, protoze se stejne ode me ocekava, ze to
> > graficky upravim nejak vhodne. Vyhodou je, ze pomoci <xsl:output-character
> > ... /> mohu znaky, ktere LaTeX na vstupu nezna, prekonvertovat na TeXove
> > sekvence. Vysledny soubor jeste prozenu perlem, jednak vycistim ruzne
> > nectnosti (napr. cisto koverzi nekdy dostanu:
> > \textit{t}\textit{e}\textit{x}\textit{t}
> > \textit{k}\textit{u}\textit{r}\textit{z}\textit{i}\textit{v}\textit{o}\text
> >it{u} coz nahradim: \textit{text kurzivou}) a funkci Text::Wrap upravim na
> > radky rozumne delky pro dalsi editaci.
> >
> > Vse mohu poskytnout (ale mam to jen doma) a zalezi na Vas, jestli radeji
> > vysledek doeditujete rucne, nebo nastudujete format souboru a doplnite
> > sablony. Neni to tak slozite. Popis formatu OpenOffice ma asi 900 stran.
> > Ja jsem si content.xml otevrel v Mozille a celkem snadno slo vystopovat,
> > jak je to ulozeno.
> >
> > Trochu potiz bude s devanagarskym textem. V UNICODE se to zapisuje dost
> > jinak nez ve Velthuisove transliteraci. Sprezku kra musite v UNICODE
> > napsat jako ka + virama + ra, zatimco ve V.t. pisete pouze kra. Dve ruzne
> > verze kta rozlisite ve V.t. pomoci prepinacu @sanskrit, @hindi resp.
> > @modernhindi, zatimco v U. se sanskrtska verze zapise jako ka + virama +
> > ta a moderni hindska verze pomoci ka + virama + ZW-J + ta. Lze se s tim
> > vyporadat pomoci regularnich vyrazu, coz umi i XSLT 2.0.
> >
> > Ja jsem nedavno zpracovaval text v transliteraci pro ITRANS a navic byly v
> > textu chyby. Udelal jsem to v perlu a stacilo na to nejakych 15
> > regularnich vyrazu.
> >
> > > ktery je vcelku pouzitelny (ve dvou krocich), pouze musim nasledne vse
> > > rucne doznackovat (cemuz bych se rad vyhnul).
> > >
> > > dekuji
> > >
> > > Arnost Stedry
> >
> > Zdenek Wagner
> > e-mail: wagner at cesnet.cz
> >
> > see also http://hroch486.icpf.cas.cz/wagner/
> >          http://icebearsoft.euweb.cz
>

Zdenek Wagner
e-mail: wagner at cesnet.cz

see also http://hroch486.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz





More information about the csTeX mailing list