Automat na dekódování starých textů

05.07.2010 20:30

Andrew Robinson ve své knize “ Lost Languages “ ( 2002 ) prohlásil “ ukázalo se, že úspěšné archeologické dekódování starých textů vyžaduje propojení logického uvažování a intuice, což počítače nemohou nabídnout.”

Regina Barzilayová, profesor na MIT, Ben Snyder, její student v laboratoři Počítačové vědy a Umělé inteligence a Kevin Knight z Univerzity Jižní Kalifornie vzali toto prohlášení osobně. Příští měsíc předloží na každoročním setkání Asociace počítačových jazykových věd studii nového počítačového systému, který během několika hodin rozluštil vetšinu starého ugaritského klínového písma. Kromě snahy pomoci archeologům rozluštit zhruba osm starodávných jazyků, které stále ještě odolávají důkladnému dekódování, má systém též rozšířit počet jazyků, který ovládá automatická aplikace Google Translate. K napodobení intuice, o které si Robinson myslel, že počítače nemohou vyprodukovat, používá nový systém několik předpokladů. Za prvé, jazyk, který se má rozluštit je podobný nějakému jinému jazyku, v případě ugaritského odborníci použili hebrejštinu. Za druhé, existuje systematický způsob jak zmapovat abecedu jednoho jazyka ve srovnání s druhým a související symboly se objeví v podobných intervalech v obou jazycích. Systém provádí odhad podobností na úrovni slov. Jazyk by měl mít alespoň nějaké příbuznosti, slova, která mají stejné kořeny, jako main a mano ( francouzsky a španělsky ), nebo homme a hombre. No a nakonec, systém posuzuje mapování podobných částí slov. Slovo jako overloading má předponu over a příponu ing. Systém by mohl předvídat, že jiná slova budou obsahovat předponu a příponu, nebo obojí, a že podobné slovo jako overloading, například francouzské surchargeant bude mít podobnou trojdílnou strukturu. Počítač si pohrává s těmito rozdílnými úrovněmi vzájemné korespondence. Například, může začít s několika soupeřícími hypotézami pro mapování abecedy, založenými kompletně na četnosti a frekvenci symbolů - mapování symbolů, které se často objevují v jednom jazyce a těch, které se objevují v druhém. Za použití “ modelingu pravděpodobnosti “ běžném ve výzkumu umělé inteligence, by měl být systém schopen rozeznat, která z těchto mapování jazyků se zdají mít blok stejných předpon a přípon.

“ procházíme data stokrát, tisíckrát a pokaždé mají naše odhady větší pravděpodobnost, protože se opravdu dostáváme blíže řešení, kde zajistíme větší soudržnost a důslednost ” tvrdí Snyder.

Ugaritské klínové písmo bylo už rozluštěno, protože jinak by neměli badatelé možnost prověřit výkonnost svého systému. Ugaritská abeceda má 30 písmen a počítač správně zmapoval 29 oproti jejich hebrejským protějškum. Zhruba jedna třetina slov v tomto jazyce má hebrejskou příbuznost a z těchto systém identifikoval 60 procent.

“ Z těch, která jsou nesprávná je mnoho těch, která se liší jen jedním písmenem, takže toto jsou stále dobré odhady “ řekl Snyder. Navíc zdůrazňuje, že systém v současnosti nepoužívá informace o kontextu k objasnění víceznačnosti. Například, ugaritské slovo dům a dcera se vyslovuje stejně, ale jejich hebrejské protějšky ne. Takže zatímco počítač je může občas poplést a smíchat je dohromady, člověk, který překládá, může jednoduše zjistit z kontextu, které slovo bylo míněno.

Nicméně Andrew Robinson zůstává skeptický. “ Jestliže autoři věří, že jejich snaha případně povede k automatickému dekódování skriptů v současnosti stále nerozluštěných, potom se obávám, že nejsem přesvědčen o jejich výzkumu “ napsal v emailu. “ Snaha odborníků předpokládá, že jazyk, který má být rozluštěn má abecedu, která může být porovnána s abecedou již známého jazyka - což očividně není případ kterýchkoliv důležitých skriptů, které je třeba ještě dekódovat. To také předpokládá, že je jasné, kde jedno slovo začíná a kde končí, což není případ mnoha již známých i neznámých jazyků a textů.”

Barzilayová souhlasí, “ každý jazyk má své nástrahy, úspěšné rozluštění většinou vyžaduje upravit metody a postup pro potřeby konkrétního jazyka.” Každopádně zdůrazňuje, že dekódování ugaritského písma trvalo mnoho let a bylo ovlivněno náhodami, jako že se třeba našla sekyra, na které byl nápis “sekyra” v ugaritském jazyce. “ Použití našeho systému, může celý proces výrazně zkrátit “ řekla Barzilayová.

Odborníci pochopitelně neočekávají, že systém, který společně navrhli, nahradí lidské překladatele. “ Je to ale silný nástroj, který může nasměrovat lidského jedince v překladatelském procesu.” Navíc, variace tohoto systému může rozšířit schopnosti překladatelských programů. Mnohé internetové překladače jsou odkázány na analýzu paralelních textů. Mohou například procházet díla Voltaira, Balzaca a dalších, zároveň v angličtině a francouzštině a hledat souvislosti mezi slovy. “ Toto je způsob jakým statistické překladatelské systémy pracují už 25 let “, řekl Knight.

Ne všechny jazyky ovšem obsahují takto rozšířené překlady literatury. Snyder zdůrazňuje, že Google Translate v současnosti pracuje jen pro 57 jazyků. Technika použitá v dekódovacím systému může být upravena k pomoci vybudovat lexikony pro mnoho dalších jazyků.

Zdroj: Larry Hardesty, MIT News

Překlad: Michael M.Faitl

Zpět

Kontakt

admin@astronauti.cz

Vyhledávání

Tvorba www stránek zdarma Webnode