A válasz megjelenítéséhez kattints a kérdésekre.
, ha szeretnéd az összeset kibontani.Mi értelme van szótárat írni, ha a Google Translate weboldalán bárki egy kattintással lefordíthat bármilyen mondatot, vagy akár egy egész weblapot?
Az ingyenes gépi fordítás fantasztikus és rettentő hasznos lehetőség, de teljesen más célt szolgál, mint egy szótár. Ha nem, vagy csak töredékesen tudsz kínaiul, a Google Translate egy másodperc alatt mutat neked egy szósorozatot, ami távolról emlékeztet a magyarra, te pedig a saját intelligenciáddal kihámozhatod belőle, hogy hozzávetőleg miről szól az eredeti. A gépi fordítás révén megtudsz valamit az idegennyelvű szöveg tartalmáról.
Nem igazán tudsz meg viszont semmit magáról a kínai nyelvről. Ha téged nem a konkrét szöveg érdekel, lehetőleg azonnal, hanem a nyelvet szeretnéd elsajátítani, akkor az egyik eszköz, amire szükséged van, egy szótár, hogy közelebb kerülj a szavak jelentéséhez és használatához.
A CHDICT elsősorban magyar anyanyelvű/magyarul jól tudó emberek számára készült, akik kínaiul tanulnak, vagy a kínait mint idegennyelvet használják.
A CHDICT honlapján magyar és kínai szavakra is kereshetsz, így jogos a kérdés: ez tulajdonképpen kínai-magyar, magyar-kínai, vagy kétirányú szótár? A válasz egyértelmű: kínai-magyar szótárral állsz szemben.
Mi a jelentősége ennek?
A szótár célja, hogy kínai szavak jelentését írja le magyarul tudók számára. A leírás egysége a kínai szó. A magyarázat egyik módja, hogy magyar megfelelőket adunk meg. Ha ez nem lehetséges, zárójelezve körülírjuk a kínai szó jelentését, használatát.
A szótár nem tartalmaz információkat a fordításként szerepeltetett magyar szavakról. Ha nem tudod, hogyan kell ragozni őket, vagy milyen vonzatokkal állnak, a CHDICT ebben nem segít. Feltételezi, hogy a magyar szavakat ismered. További részleteket azért közöl zárójelek között, hogy kétséges esetben segítsen eldönteni, a magyar szó jelentései közül melyikről is van szó.
Fontos még, hogy amikor amikor a kiinduló anyag szótörzsét összeállítottam, a leggyakoribb kínai szavakat válogattam ki. Különböző nyelvek szavai nem feleltethetők meg egyértelműen egymásnak, ezért bizonyos, hogy a magyar fordítások között nem a leggyakoribb magyar szavakat találod. Cserébe bármilyen kortárs kínai szöveget olvasol is, a CHDICT méretéhez mérten a lehető legtöbb szót megtalálod a szótárban.
Szigorúan véve a CHDICT egy szövegfájl, amelynek legfrissebb változatát az oldalról letöltheted. Ez tartalmazza az összes szócikk aktuális változatát, azaz: a címszót egyszerűsített és hagyományos írásjegyekkel; a címszó kiejtését pinyin-átirattal; valamint a magyar megfelelőket. Az aktuális változaton kívül a fájlban megtalálható a szócikkek összes korábbi állapota, és hogy ki, mikor, mit módosított, illetve milyen megjegyzést fűzött a szócikkhez. Ezt a fájlt a Creative Commons BY-SA licenc feltételei szerint lemásolhatod, és nem kereskedelmi célra korlátozás nélkül felhasználhatod, ha a forrást megjelölöd.
A honlap, amit a böngésződben éppen nézegetsz, valójában egy számítógépes program, amely lehetővé teszi, hogy a szótárban kényelmesen keressél. A program maga szintén nyílt forráskódú. Minden sorát elolvashatod, az egészet magad is lefordíthatod, és nem kereskedelmi célra a saját számítógépeden vagy szervereden te is futtathatod.
Egyes funkciókhoz a honlap további nyílt forráskódú adatokat is használ. Az írásjegyek körvonalai, a vonássorrend-animációk és a kézírás-felismerés a Make Me A Hanzi projektből származnak. Ha egy magyar szóra keresel, a találatok között a gyakoribb kínai szavakat találod felül, ehhez az oldal a SUBTLEX-CH gyakorisági listáját használja. A szerkesztőfelület javaslatai és figyelmeztetései az Unihan adatbázist, iletve a CC-CEDICT, a HanDeDict, a 國語辭典 adatait használják.
A szótár kiinduló állapota 2017 májusában körülbelül 11 ezer kínai címszót és 24 ezer magyar megfelelőt tartalmaz. A címszavakban közel 3 ezer különböző írásjegy fordul elő. Nincs egyértelmű válasz arra, hogy ez soknak vagy kevésnek számít-e. Álljon itt néhány szám viszonyítási pontként.
A nyomtatott formában elérhető Bartos-Hamar-féle kínai szótár 12 ezer címszót tartalmaz. A HSK-vizsga legmagasabb szintjéhez elvárt szókincs 6 ezer szót tesz ki (ezek mindegyike megtalálható a CHDICT-ben).
A CC-CEDICT nyílt kínai-angol szótár 115 ezer szócikket tartalmaz. A tajvani 國語辭典 értelmező szótár 160 ezret.
A TestYourVocab.com oldal szókincstesztje, amit sok tízezren töltöttek ki, azt mutatja, hogy az angolt idegennyelvként beszélők szókincsének középértéke 7.800 szó; anyanyelvi felnőtt beszélők esetén ugyanez az érték 30 ezer fölött van.
A CHDICT a kortárs sztenderd kínai nyelv (mandarin) szókincsét írja le. Feltünteti mind az egyszerűsített, mind a hagyományos írásjegyeket, hiszen különböző helyeken mindkét írás használatban van ma is.
Ahol a szárazföldi és a tajvani kiejtés eltér egymástól, a szárazföldi kiejtést részesíti előnyben. Jövőbeli cél, hogy egységes jelölésmóddal feltüntesse az alternatív kiejtéseket, alternatív írásmódokat, illetve a topolektusokra jellemző szavakat.
A CHDICT-nek nem célja, hogy a klasszikus kínai szavait és a leírásukra használt írásjegyeket tartalmazza.
Gyakran ismételt tévhit, hogy a kínaiban nincsenek szófajok. A szótár készítői ezt a nézetet nem osztják. Ugyanakkor a kínai szavak szófaji besorolása legalább két okból nehéz feladat. Az egyik ok a nyelv rugalmassága: rengeteg szó több szófaji szerepben is fellép. Effélét „közelebbi” nyelvekben, például az angolban is látunk, de a kínai szavak szófaji többértelműsége még az angolén is túltesz.
A másik nehézség, hogy a kínai leírására alkalmas szófajok nem feleltethetők meg mechanikusan a nyugati nyelvekből ismerteknek.
Talán e két oknak is köszönhető, hogy kevés forrás tüntet fel kínai szófajokat, és ha mégis, gyakran ez az információ megbízhatatlan és nem következetes.
Mindezek miatt a CHDICT megalapozása során megízható szófaji információk megadására nem volt módom. A téves információ rosszabb, mint ha egyáltalán nincs információ, így a szófajokról tudatosan lemondtam.
A magyar fordításokból helyenként lehet következtetni a kínai címszó szófajára, de ez nem szigorú szabály. Például attól, hogy a magyarban épp egy igen kifejező főnév áll, még előfordulhat, hogy a kínai szó elsősorban vagy kizárólag igei szerepben használatos, vagy viszont. Ezért is fontos, hogy ha új szavakkal találkozol, arra figyelj, hogy a forrásodban milyen nyelvtani funkciója van a szónak, a szótárra pedig csak a jelentés felgöngyölítéséhez támaszkodj.
Igen, a szótárfájlt letöltheted, másolhatod, bárhová feltöltheted, a saját honlapodon közzéteheted, akár a saját szótáradba vagy szoftveredbe is beépítheted. Sőt, minél többen teszik ezt, annál valószínűbb, hogy az anyag évek-évtizedek múlva is elérhető lesz még.
Két feltételt kell teljesítened ehhez. Az egyik, hogy forrásként megjelölöd a CHDICT-et. A másik, hogy saját művedet, amelyhez a CHDICT-et felhasználtad, ugyanezen licenc feltételeivel publikálod, azaz a saját alkotásodat is közkinccsé teszed.
Fusd át a CHDICT licencének, a Creative Commons BY-SA 4.0-nak rövid hivatalos összefoglalóját.
Előttem az alább felsorolt online kínai-magyar szótárak ismertek. A Google találatai között mások is felbukkannak, de benyomásom szerint minőségük igen kérdéses. Sokuknál egész egyszerűen gépi fordításról, vagy más emberileg nem ellenőrzött anyagról van szó, efféle önjellemzéssel: „Kínai szótár: ingyenes online fordítás magyarról kínai és a kínai a magyar. Ez a kínai szótár lehetővé teszi, hogy modell kalligráfia egy magyar szót.”
Az említésre méltó oldalak:
Nem magyar célnyelvre három nyílt forráskódú szótár érdemel mindenképp említést. Ezek inspirálták a CHDICT-et:
Igen! A CHDICT nyílt szótár. Olyan, mint a Wikipedia: bárki bármelyik szócikket módosíthatja, és bárki felvehet új kínai szavakat.
Ha szeretnél hozzájárulni a szótárhoz, először egy működő e-mail-címmel regisztrálnod kell. A regisztráció ingyenes és semmilyen kötelezettséggel nem jár, elsősorban azért van rá szükség, hogy a spontán vandalizmust megelőzzük.
Regisztráció után szabadon felvehetsz új szavakat; megjegyzést fűzhetsz a létező szócikkekhez; beleírhatsz bármelyik szócikkbe; vagy zászlócskával megjelölhetsz szócikkeket, ha jelezni akarod, hogy javításra szorulnak. Minden efféle hozzájárulásod növeli az oldalon számon tartott pontszámodat.
Szócikkeket akkor jelölhetsz meg helyesnek, ha hozzájárulásaiddal már elértél egy bizonyos pontszámot.
A CHDICT nem egy halott anyag. Folyamatosan bővül és javul, nincs végleges állapota. A cél, hogy a hibákat közösen kiküszöböljük és megtaláljuk minden kínai szóhoz a legpontosabb magyar megfelelőt, a legjobb körülírást. Akkor lehetünk biztosak az eredményben, ha minden változást többen ellenőriztek.
A keresztellenőrzés kifejezésére szolgál a zöld pipa, ami azt jelzi, hogy szót jóváhagyta valaki, aki nem azonos azzal, aki utoljára módosította a szócikket. Amikor beviszel egy új szót, vagy módosítasz egy meglevőt, a szócikk a semleges „új” státuszt kapja. Ha valaki más ezután jóváhagyja a szócikket, annak státusza „ellenőrzött”-re változik, és a keresési eredményekben megjelenik mellette a zöld pipa.
Ha csak jelezni szeretnéd, hogy a szócikk javításra szorul, megjelölheted azt problémásként. Az ilyenek mellett a keresési eredményekben egy piros zászlócska látszik, amíg valaki más a jelölést nem törli.
A Változások oldalon időrendi sorrendben végignézheted, hogy ki, mikor, mit módosított a szótáron.
Ha valaki jelzett egy problémát vagy feltett egy kérdést, és te tudsz valami hasznosat a szóról, megoszthatod azt a többiekkel egy hozzáfűzött megjegyzésben.
Ha felbukkan egy új szó, és úgy ítéled, helyes a fordítása, a listában egyből jóváhagyhatod, vagy egy kattintással beléphetsz a szerkesztőfelületre, ahol a szócikket módosíthatod.
Ha valaki más megzászlózott egy szócikket, ez a változás is feltűnik itt, és hozzászólhatsz a beszélgetéshez, helyesbítheted a szót, vagy éppen törölheted a zászlócskát, ha szerinted a jelölés nem indokolt.
Létező szót két helyről módosíthatsz. Az egyik a keresési eredmények listája, ahol minden találat mellett felbukkan egy ceruza-ikon, ha az egeret a szó fölé viszed. A másik a Változások listája, ahol szintén megtalálod a ceruzát az összes listázott szócikk mellett.
Bárhonnan is indulsz, a ceruzára kattintva a Szócikk szerkesztése oldalra kerülsz, ahol áttekintheted a szócikk összes korábbi változását. Ugyanitt szerkesztheted a szó jelentéseit, vagy akár magát a címszót, ha az írásjegyek vagy a pinyin-átirat téves.
A kínai részletes pinyin helyesírási szabályokkal rendelkezik, pontosan tudható, hogy mit kell külön- és egybeírni, és hol kell kis- és nagybetűket használni.
A valóság az, hogy a CHDICT, akárcsak az összes hasonló nyílt digitális szótár, vegyesen tartalmaz szavakat és többszavas kifejezéseket, tulajdonneveket és közneveket. Sajnos azonban egyetlen felhasználható forrás sem adja meg ezek szabályos pinyin-átiratát, ami az egybe- és különírást, illetve a kis- és nagybetűs írást illeti.
A CHDICT megalapozása során ezért nem volt más választásom, mint hogy a pinyint szigorúan a kiejtés jelölésére, fonetikus átiratként haszáljam, teljességgel ignorálva a hivatalos helyesírási szabályokat.
A pinyin csupán a kiejtés jelölésére szolgál, nem „valódi” pinyin. A fonetikus átiratban minden szótagot szóköz választ el, és mindent kisbetűvel írunk. Az erhua szóvégi 儿-jét a megjelenített szócikkekben az oldal algoritmikusan egyesíti az utolsó pinyin-szótaggal, a forrásban r5-ként külön kell ezt is szerepeltetni.
A kínai szótagok hangsúlya a környezet függvényében sok esetben szabályszerűen megváltozik. Kiemelkedik két konkrét morféma, az 一 yī és a 不 bù, amelyek hangsúlyukat a következő szótag hangsúlyától függően cserélgetik. Általános szabály a hármas hangsúly kettesre váltása rákövetkező hármas előtt.
A bevett kínai lexikográfiai gyakorlatnak megfelelően a CHDICT-ben a hangsúlyváltozást nem jelöljük. Kivétel nélkül a szótagok kanonikus hangsúlyát tüntetjük fel, nem a felszíni formát. Példaként: a 不错 átirata bùcuò és nem *búcuò.
Jelöljük viszont az utolsó szótag semleges hangsúlyát, mivel az a szó lexikalizált tulajdonságának tekinthető. A 休息 átirata ezért xiūxi és nem *xiūxī. A szárazföldi és tajvani források itt esetenként eltérnek. A CHDICT a szárazföldi forrásokat követi, amelyek a semleges hangsúlyra hajlanak.
Amikor új szót veszel fel vagy módosítasz egy létező szócikket, csak úgy tárolhatod a változást, ha írsz valamit a megjegyzés mezőbe. Nem kisregényt várunk ide, és ha úgy érzed, a változtatás nem szorul semmiféle magyarázatra, elég, ha egy pontot írsz oda. Nem vagyunk kényszeresek.
Új szó esetén adj meg egy forrást. Hol gyűjtötted a szót, mivel támasztod alá, hogy tényleg az a jelentése, amit beírtál? Meg tudsz-e jelölni egy online vagy nyomtatott forrást (például elismert más célnyelvű szótárt), amiben más is ellenőrizheti az írásjegyeket, a kiejtést, a jelentést? Ha meggyőzőek a hivatkozásaid, nagyobb az esélye, hogy egy másik szerkesztő jóváhagyja a szócikket.
Ugyanez igaz a létező szócikkek változtatására. Minél több információval támasztod alá a módosításodat, annál jobban bíznak majd benne a szótárhasználók és a többi szerkesztő.
A magyar jelentések elején és végén gyakran szerepel zárójelek közötti szöveg. A zárójelezett részek a keresési eredményekben dőlt betűvel jelennek meg, jelezve, hogy nem a kínai szó magyar megfelelőjéről van szó, hanem valamiféle metainformációról, azaz a szóra vonatkozó magyarázatról, egyértelműsítésről vagy egyéb kiegészítő információról.
A zárójel legfontosabb hatása, hogy amikor valaki egy magyar szóra keres, a zárójelezett részeket nem találja meg a program. Gondolj arra, hogy minden chéngyǔ magyar megfelelője elején ott áll: (kifejezés). Ha valaki magyarul arra keres, hogy „kifejezés”, nem akarja megkapni az összes chéngyǔ-t. Arra kíváncsi, hogyan mondják kínaiul, hogy „kifejezés”.
A magyar megfelelők elején efféle címkék állnak: kifejezés, családnév, földrajzi név, számlálószó, vulgáris. Ezek egy aránylag rövid listáról származnak, a CHDICT nem támaszkodik kényszeresen a címkézésre.
A megfelelők végén jóval többször áll zárójelben kiegészítő információ. Ennek fő célja, hogy egyértelműsítse, a magyar szónak melyik jelentésére gondolunk. Itt jelezheted azt is, ha például a kínai ige tárgya megfeleltethető a magyar ige vonzatának, ezzel is világosabbá téve a fordítást. A 期望 qīwàng egyik megfelelője például a „számít”, ahol fontosnak éreztem feltüntetni, hogy valamire, nem pedig csak úgy „számít”, mert mondjuk lényeges tudnivaló, vagy számító ember. A névmásokat itt rövidítve használjuk: vmi, vkivel, vhonnan stb.
Ebben a jelentés utáni zárójeles részben leírhatsz bármit, amit szükségesnek érzel, hogy világossá tedd a kínai szó jelentését és használatát.
Ritkább esetben az is előfordul, hogy a címszónak egyszerűen nem létezik magyar fordítása. Mi lenne például a 的 magyar megfelelője? Ilyenkor az egész jelentés egyetlen zárójelezett magyarázat vagy körülírás.
A szótár formátuma a zárójelek szerepétől eltekintve végletesen egyszerű és naiv. Minden címszóhoz egy vagy több magyar jelentés tartozik. Ha szócikket a találati listában látod, a bekarikázott számok a jelentések elkülönítésére szolgálnak. A szócikk szerkesztése során a beviteli mezőben egy sor egy jelentésnek felel meg. A szövegfájlban a jelentések perjellel elválasztva sorakoznak egyetlen sorban.
Nem csinálunk elvi kérdést abból, hogy mi számít különböző jelentésnek. Arra törekszünk, hogy egy jelentésen belül ne legyen felsorolás, de ezt sem igazán vesszük szigorúan. Gyakran egy adott jelentést úgy tudsz a legjobban megragadni, ha több hasonló, külön-külön sokféleképpen értelmezhető magyar szót adsz meg hozzá. Ha így teszel, ezeket mindenképpen pontosvesszővel sorold fel a jelentésen belül. A pontosvessző használata szigorú szabály, nincs alóla kivétel.
A fő szabály, hogy az igék egyes szám harmadik személyben, a főnevek pedig egyes számban és alanyesetben állnak.
Ez alól kivételt teszünk, ha ilyen alakban lehetetlen megadni a magyar jelentést. A 叫 nem mondható másképp, mint „hívják”. A 鸟类 nem lehet „madár”, csak „madarak”.
Ha a szerkesztőoldalon megnyitsz néhány szócikket, hamar találsz olyat, ahol a magyar szó belsejében egy függőleges vonal, a | karakter áll.
Ez egy félig-meddig kísérleti elképzelés. Egyrészt az igekötőket, másrészt az összetett szavakat jelöljük így, de nem mindig. Itt is az a legfontosabb, hogy mi a hatás. Amikor egy szót a | karakterrel két részre osztasz, akkor a keresés a részeit külön is megtalálja. Ha például a „vissza|jön” szót így szerepelteted, úgy a „jön” szóra keresve is felbukkan a találatok között. Ellenkező esetben csak akkor, ha a felhasználó egészében a „visszajön” szóra keres.
Arra gondolj tehát, hogy célszerű-e a szó részeit külön-külön is megtalálhatóvá tenni. Az „okostelefon” hasznos találat lehet akkor is, ha valaki csak a „telefon”-ra keres. Az „éghajlat” nem sokat ér annak, aki a „hajlat”-ra keres.
Magyar billentyűzeten a | jelet azt AltGr+W billentyűkombinációval tudod bevinni.
Jópár kínai főnév esetén láthatod, hogy a szótár a hozzá illő számlálószót is feltünteti. Ezt nem lehet elegánsan megoldani, ezért azt a kényszermegoldást használjuk, hogy egy „jelentés” teljes egészében a számlálószót tartalmazza az alábbi formában:
SZ:個|个[ge4]
Vigyázz, ha a hagyományos és az egyszerűsített írásjegy eltér, itt kivételesen a hagyományosat kell először leírni! Ez történeti okokból van így, mert a szövegfájl formátuma mindenhol a hagyományos változatot adja meg első helyen.
Valószínű, hogy a jövőben, ha a szótárat kibővítjük további nyelvtani információkkal, illetve alternatív kiejtésekkel és írásmódokkal, akkor azokhoz is hasonló konvenciót vezetünk majd be.
Néhány korábbi kérdésnél már kimondatlanul felbukkant a szótár fő szerkesztési elve, az empátia.
Arról van szó, hogy a CHDICT-ben nagyon kevés szigorú szabályt követünk. Nem töprengünk sokat azon, hogy pontosan milyen szófajú a címszó, vagy mi számít külön jelentésnek és mi nem. Nincs kiterjedt címkerendszer. Ez mind teljesen szándékos döntés, mert a CHDICT nemcsak a szótárban keresők életét szeretné megkönnyíteni, hanem a szótárhoz hozzáírókét is. Minél bonyolultabb a formátum, minél több szabályt kell megérteni és észben tartani, annál nehezebb közreműködni, márpedig a szótár attól lesz jobb, ha a lehető legtöbben megosztják benne tudásukat.
Sok-sok bonyolult szabály helyett így csak egyet kell követned. Éld bele magad annak a helyzetébe, aki a szótárban keres majd! Hogyan tudod a leghatékonyabban, egyszerűen elmagyarázni neki egy ismeretlen kínai szó jelentését és használatát? Ha valaki egy magyar szóra keres, mit kell tenned, hogy a legtöbb találatot kapja, de lehetőleg minél kevesebb nem relevánsat? El tudja-e majd dönteni, hogy egy adott szócikkben például a „felvesz” a „földről felszed”, „alkalmazásba vesz” vagy épp „videóra rögzít” értelmében szerepel?
A CHDICT nem szabályokat, hanem eszközöket ad neked az empátia gyakorlására. Felsorolhatod a magyar szót hasonló szavak társaságában; beviheted a | karaktert, hogy a szó részei is kereshetőek legyenek; a végső zárójelezett részben tehetsz bármilyen egyértelműsítő, pontosító, magyarázó kiegészítést.
Mit jelent pontosan az, hogy a CHDICT mint nyílt forráskódú szótár „köztulajdon”? Ha beviszel egy új szót, az kinek a szellemi tulajdona? Egyáltalán, mit jelent a szellemi tulajdon, ha sem maguk a szavak, sem a kínai vagy a magyar nyelv egésze nem lehet birtoka senkinek?
A válasz erre az, hogy a CHDICT-ben a szellemi tulajdon egysége a hozzájárulás. Ez lehet egy új szócikk; egy létező szócikkhez fűzött megjegyzés; szócikk állapotának módosítása; vagy magának a szócikknek a módosítása. Egész pontosan minden elem, amit a Változások listájában felhasználónévvel és dátummal ellátva megtalálsz.
Ha hozzájárulsz a szótárhoz, elfogadod, hogy a hozzájárulásod automatikusan és visszavonhatatlanl a CHDICT részévé válik. A szerzői jog téged illet, úgy, hogy a felhasználóneved azonosít téged a teljes, minden változást tartalmazó szövegfájlban. Viszont a hozzájárulásod a Creative Commons BY-SA licenc feltételei szerint bárki által szabadon felhasználható nem kereskedelmi célra és a forrás megjelelölése mellett.
Új szótár megalapozásakor nem kerülhető el, hogy legalább három kérdést megválaszoljunk. Hány szó szerepeljen benne? Melyek legyenek ezek? Hogyan állítjuk elő a fordításukat?
A terjedelem tekintetében azt a legkisebb méretet kerestem, amely már sokak számára elég értéket ad, hogy az oldalnak legyen törzsközönsége. Viszonyítási pont volt a HSK-vizsgákhoz elvárt szókincs (6 ezer szó); a Bartos-Hamar-féle szótár mérete (11.750 szó); és az online szókincstesztek tapasztalatai. Mindezek tekintetbe vételével, de mégis némileg önkényesen, a 10 ezer körüli méret mellett döntöttem.
Miután a méretet kijelöltem, kézenfekvő volt, hogy a leggyakoribb szavak kerüljenek be, amihez a SUBTLEX-CH korpusz közzétett gyakorisági listáját vettem alapul, azzal a kiegészítéssel, hogy gyakoriságtól függetlenül helyt kapott a HSK teljes szóanyaga.
A fő kihívás a szócikkek előállítása volt, elsősorban abból kifolyólag, hogy lényegében véve nem tudok kínaiul. Legfontosabb forrásom a CC-CEDICT és a HanDeDict voltak, ezek szócikkeit (az angol és német megfelelőket) fordítottam magyarra.
Módszeresen felhasználtam az összetartozó Wikipedia-szócikkek címeit is. Aránylag kevés szócikkhez tartozik Wikipedia-cikk, de ha igen, és a különböző nyelvű cikkek össze vannak kapcsolva, az nagyon megbízható információ. Az előkészítési fázisban a Wikipedia letölthető adatbázis-exportját használtam fel.
Kvázi gépelésgyorsításként a fenti forrásokból származó összes angol és német szöveget, valamint magukat a címszavakat, lefordítottam magyarra a Google és a Bing gépi fordítójával. A szócikkekben álló magyar megfelelők nem gépi fordítások, de az egyedileg fejlesztett alkalmazásban, amit a szótárfordításhoz használtam, a gépi fordítások automatikus kiegészítésként kéznél voltak.
A fentieken túl tekintetbe vettem számos egyéb forrást, ám ezeket szerzői jogi okokból csak eseti alapon és csak keresztellenőrzéshez használtam. A legfontosabb a Hawaii Egyetem által kiadott ABC Chinese-English Dictionary, illetve a Bartos-Hamar-féle kínai-magyar szótár. Utóbbira főként a nem lefordítható szavak (partikulák stb.) igényes körülírásához támaszkodtam.
Az MSZNY 2017 konferencia programján szereplőposzterelőadásomban részletesebben leírom a CHDICT fejlesztését. [PDF]
Ez legalább annyira függ tőletek, mint tőlem.
A CHDICT még rengeteget fejlődhet mind terjedelmében, mind mélységében. Ami a terjedelmet illeti, a szógyakorisági listán lefelé haladva még sok tízezer szó kívánkozik a szótárba. Kézenfekvő a földrajzi nevek és más tulajdonnevek módszeres bevitele. Ami a mélységet illeti, csak két példa: sok főnévhez hiányzik a számlálószó, a többszótagos igékhez pedig elkelne részletesebb nyelvtani információ. Az összes alábbi kérdés a módszeres bővítés lehetőségeire vonatkozik.
A CHDICT módszeres továbbfejlesztésén ezen a ponton két dolog tud hatalmasat lendíteni.
Korpuszok számítógépes elemzése. A korpusz egy legalább néhány tízmillió szavas szöveggyűjteményt jelent. Számítógépes elemzéssel belőle sok nyelvtani információ kinyerhető a már létező szócikkekhez, például az egyes főnevekhez tartozó számlálószók, a többszótagos igék belső szerkezete, vagy a gyakori szókapcsolatok.
Kínai anyanyelvű közreműködő. Sok hiányzó információ csak részben nyerhető ki automatikus módszerekkel. Egy kínai anyanyelvű közreműködő, aki idejét a projektnek szentelve nyelvtani szempontok szerint annotál előkészített szólistákat, hatalmas értéket jelenthet a CHDICT számára. Fájdalmas hiány az is, hogy a felhasználói felület egyelőre nem érhető el kínai nyelven.
Ha a spontán, szavankénti hozzájáruláson túl szeretnél intenzívebben közreműködni, írj egy rövid levelet: zydeodict [at] gmail – dot – com.
A CHDICT-ben a példamondatokra is az empátia szemszögéből gondolunk. Ahogy a zárójelezett részekben közvetetten fontos részleteket közölhetünk a magyar szavakról, úgy egy-egy jól megválasztott példamondattal burkoltan rengeteget elárulhatnánk a kínai szóról. Tipikusan milyen tárgy vagy alany tartozik egy válogatósabb igéhez? Szétszakdhat-e részeire az ige egy mondatban? Milyen hasonló szavak felbukkanására számítunk a címszó környezetében? Tartozik-e a kínai szóhoz egy jellemző vonzat, prepozíció?
Sajnos a példamondatok kiválasztása az egyik legnehezebb feladat. Ideális esetben nem spontán kreálmányok, hanem valódi, leírt szövegből származnak. A lehető legegyszerűbbek, de nem banálisan egyszerűek. És nemcsak a kínai példamondatok, de a magyar fordításuk is hibátlan. Ehhez olyan közreműködőkre van szükség, akik mind kínaiul, mind magyarul anyanyelvi szinten olvasnak, írnak és értenek.
A CHDICT-ben a címszót a hagyományos írásjegyek, az egyszerűsített írásjegyek és a pinyin hármasa alkotja. Ugyanaz a hármas nem szerepelhet kétszer, másfelől viszont egy címszóhoz pontosan egy egyszerűsített, egy hagyományos és egy pinyinnel írt rész tartozik.
A probléma az utóbbival van, mert sok szónak van több lehetséges írásmódja. Jellemzően a hagyományos írásjegyek ingadoznak, de előfordul több egyszerűsített változat is. Másfelől ugyanaz a szó rendelkezhet több kiejtéssel a nyelvváltozat függvényében (pl. tajvani vagy szárazföldi), de még egy nyelvváltozaton belül is.
Ezt a változatosságot most egész egyszerűen nem lehetséges leírni a CHDICT-ben. Az egyetlen lehetőség, hogy több címszót hozunk létre, ami viszont nem szerencsés.
Az egyik továbbfejlesztési lehetőség a formátum és a megjelenítési mód óvatos kiterjesztése, hogy az alternatív írásmódokat és kiejtéseket egy szócikken belül is fel tudjuk tüntetni. Ezután részben a létező nyílt forráskódú szótárak automatizált összevetésével, részben manuális munkával bevihetjük az ismert alternatívákat.
Számlálószók. Ahol a forrásaim egy adott főnév számlálószavát feltüntették, ott ezt az információt a CHDICT megalapozása során átvettem. Legtöbbször azonban ez nem volt így; a főnevek többségéhez nem tartozik számlálószó.
Itt vagy korpusznyelvészeti módszerekkel, vagy manuális munkával rövid idő alatt nagy előrelépést lehet elérni.
Többszótagos igék. Nyelvtanulóként komoly kihívást jelentenek a többszótagos igék. Ezek egy része nem rendelkezik belső szerkezettel; mások ige+tárgy kombinációként elemezhetők; megint mások igéből és eredménykiegészítőből állnak. Helyes használatukhoz a belső szerkezetet ismerni kell. Ez határozza meg, hogy mondaton belül az alkotórészek elszakadhatnak-e egymástól; kaphat-e az ige tárgyat; hogyan fejezünk ki időtartamat vagy tagadást stb. Ez az információ a nyílt szótárakban (amilyen a CC-CEDICT) nincs jelölve. Itt is több lehetőség kínálkozik, akár korpusznyelvészeti, akár manuális módszerekkel.
Kötött morfémák. Ezek olyan alkotóelemek (többnyire szótagok), mint a magyarban a „fő”: adott jelentésükben csak összetett szavakban szerepelnek. Beszélhetünk „főpályaudvar”-ról, de nem mondhatjuk, hogy „ez a pályaudvar fő” vagy „a fő a kedvenc pályaudvarom”. A legtöbb kínai szótár ezt nem jelöli, a kötött morféma jelentéseit ömlesztve sorolja fel a nem kötött jelentésekkel. Ez minimum megnehezíti a szócikkek értelmezését és összezavarja a szótárhasználót. Itt valószínűleg csak aprólékos manuális munkával érhetünk el javulást.
Ezalatt a terjedelmet értem. 11 ezer szócikkével a frissen létrejött CHDICT aránylag kicsi szótárnak számít. Ennyi szócikk a valós szövegekben előforduló szavak nagy részét lefedi, de a Zipf-törvénynek köszönhetően az is garantált, hogy szinte minden szövegben előfordulnak olyan szavak, amelyek hiányoznak szótárból.
A valószínűségi törvények azt is garantálják, hogy ha sokan spontán bevisznek új szavakat, akkor a szótár egészséges eloszlással bővül és fokozatosan közelít az érett elődök fedéséhez. Ez azonban hosszantartó folyamat lehet.
Kézenfekvő a további módszeres bővítés. Ennek egyik módja, hogy a gyakorisági listán lefelé haladva jelöljük ki az új szavakat. Másik izgalmas lehetőség, mivel online szótárról van szó, hogy a lekérdezéseket elemezzük és azokra a szavakra összpontosítunk, amelyekre a legtöbben kerestek sikertelenül.
A CHDICT egyáltalán nem létezne, ha nincs a CC-CEDICT és a HanDeDict. Sokkal rosszabb lenne, ha nincs a 國語辭典 és az ABC. Nem lenne benne kézírás-felismerés Jordan Kiang HanziLookup-ja nélkül. Nem lennének vonássorrend-animációk Shaunak Kishore Make Me a Hanzi-ja nélkül.
Két kivételes tanárom, P. Szabó Sándor és Dora Brunson nélkül még ennél is kevesebbet tudnék kínaiul és a kínairól.
Köszönet illeti Kis Balázst, Horváth Alízt és Bihari Annát, akik két éven keresztül megmagyarázhatatlan türelemmel végighallgattak és bátorítottak.