Keresés a korpuszban - CHDICT kínai ⇔ magyar szótár és szövegtár

Mi fán terem a korpusz?

Korpusz alatt egész egyszerűen szövegtárat értünk: sok-sok szöveget, mondatot vagy mondattöredéket. A legtöbb korpusz egynyelvű, mint például a Magyar Nemzeti Szövegtár. Nyelvtanulók számára még izgalmasabbak a kétnyelvű, párhuzamosított korpuszok, melyekben minden mondat mellett megtaláljuk annak megfelelőjét is a másik nyelven.

A CHDICT oldalán közel 3 millió kínai és magyar filmfelirat között kereshetsz, melyek a nyílt licencű OpenSubtitles2016 gyűjteményből származnak.

Példamondatok helyett

A CHDICT szócikkei nem tartalmaznak példamondatokat. Ezek megírása és anyanyelvi lektorálása kínaiul és magyarul meghaladná a szerzők lehetőségeit. A korpuszban keresve azonban pillanatok alatt áttekinthetsz rengeteg valós példát, és képet alkothatsz a szó használatáról. Felmérheted, hogy milyen más szavak társaságában fordul elő jellemzően, s milyen szerkezetek részeként használatos.

Meghosszabbított szótár

A korpusz 3 millió magyar mondatában több mint 60 ezer szó fordul elő legalább háromszor. A kínai szókincs a szószegmentálás nehézségei miatt nehezen becsülhető, de a magyar számok is érzékeltetik, hogy a korpuszban visszakereshető szókincs sokszorosa a CHDICT méretének. Ha valamit nem találsz a szótárban, nagy az esély, hogy a korpuszban keresve mégis megtalálod a jelentését.

Kiemelt fordítások

Minden találatban megtalálod erős színnel kiemelve a szót vagy kifejezést, amire kerestél. Ha magyar szavakra keresel, először a pontos előfordulásokat találod, lejjebb azonban megjelennek más ragozott alakok is.

Az oldal izgalmas funkciója, hogy a másik nyelven is találsz kiemeléseket, melyek a keresett szöveg fordítását jelölik a teljes mondaton belül. Minél erősebb a kiemelőszín, annál valószínűbb, hogy a megfeleltetés igaz. Ne feledd azonban, hogy a kiemelt fordításokat egy algoritmus azonosította, így helyességük nem garantált. Fő hasznuk, hogy megkönnyítik a találatok gyors áttekintését.

Amikor kínai nyelven keresel, még egy részletet szem előtt kell tartanod. A kínai írásjegyek sorozatát eleve egy algoritmus szadbalta szavakra, s gyakran előfordul, hogy a szöveg, amire keresel, egy adott találaton belül egy hosszabb egység része. Példaként:

给兽医打电话电话在电冰箱上，告诉他我马上到

Hívjátok az állatorvost. A száma a hűtőn van. Mondjátok neki, hogy mindjárt ott vagyok.

Bár itt a keresőszöveg a 电话 volt, az adott kínai mondatban épp az automatikusan összevont 打电话 részeként szerepel. Ez azért fontos, mert a magyar szövegbeli kiemelés ennek a hosszabb töredéknek a fordítását jósolja meg, nem pedig a tényleges keresőszövegét.

Korlátok

Bár a 3 millió kereshető kínai-magyar mondatpár igazi kincsesbánya, nem szabad megfeledkezni a korpusz korlátairól.

A CHDICT összes szócikke feltünteti az egyszerűsített és a hagyományos írásjegyeket is, a korpuszban azonban kizárólag egyszerűsített kínai szöveg szerepel.
A mondatpárok szinte sohasem egymás direkt fordításai. Az a legvalószínűbb, hogy a magyar és a kínai szöveg egyaránt egy harmadik, angol nyelvű eredeti fordítása.
A filmfeliratok gyakran nem önálló, teljes mondatok, hanem csupán mondattöredékek.
Mivel a legtöbb film Amerikában készül, a szövegekben kézzelfogható az amerikai kultúrhatás. Colorado, Charlie és a beef jerky megtalálható a korpuszban, a Hortobágy, Huba és a mákos guba azonban nem.
A filmek többsége a populáris kultúra részét képezi, ezért a párbeszédek jellemzően kötetlen, köznyelvi stílusban íródtak. Ezt a magyar mondatok esetén tovább fokozza a honi filmfordítási hagyomány, amely még az eredetinél is szlengesebb, vicceskedő vagy épp trágár megfogalmazásokra hajlik.
Az alapanyagként használt OpenSubtitles korpusz készítői a kínai és magyar feliratokat automatikus módszerekkel, többek között időbélyeg alapján párosították. Ez néha téves párokat eredményez, ezért ne lepődj meg, ha egyszer-egyszer a kínai és magyar mondatnak semmi köze egymáshoz, vagy valamelyik oldalon egy extra töredéket találsz.
Ekkora mennyiségű digitális szövegnél elkerülhetetlen, hogy sok adat szemetes, például angol mondatok bukkannak fel, vagy kódolási hibák miatt értelmes szöveg helyett zagyvaságot találunk. Ilyen okokból az eredeti korpusz közel felét eldobtam, de így is maradt még zaj, amit nem sikerült kiszűrni.

Mindezek miatt a korpuszt kezeld kétkedően és egészséges forráskritikával. Vagyis pontosan úgy, mint bármely szöveget, ami eléd kerül.