A CHDICT törzsanyaga számokban
Könnyű elintézni egy szótár terjedelmét azzal, hogy 10.888 címszót és 24.554 magyar jelentést tartalmaz. Ezek a CHDICT kiinduló anyagának fő paraméterei 2017 májusában. Én ennél kíváncsibb természet vagyok, ezért kigyűjtöttem pár rafináltabb statisztikát is.
Fedés és szógyakoriság
Vettem a SUBTLEX-CH szógyakorisági lista első 40 ezer elemét, és megnéztem, a CHDICT hányat tartalmaz az 1., 2., 3. stb. leggyakoribb ezer szó közül. Ez látható a lenti diagramon, piros színnel. Érdekességként mellé tettem ugyanezeket a számokat a 110 ezer szócikkes CC-CEDICT szótárra vonatkozólag, kék színnel.
Látható, hogy az első 6 ezer szóig a fedés majdnem 100%-os, vagyis minden ezres csoportból közel 1000 megtalálható a CHDICT-ben. Ez nem meglepő, hiszen a címszavakat pontosan ez alapján a szógyakorisági lista alapján válogattam be.
Efölött a CHDICT fedése élesen esik. A váltópont jóval 10 ezer szó alatt van, viszont a mintegy 11 ezer szócikk között számos ritkább szó is megtalálható. Ennek oka, hogy a HSK 6 ezres szólistáját a gyakoriságra való tekintet nélkül felvettem, a HSK összeállítói pedig szemmel láthatóan nem a csupán gyakoriságra összpontosítottak a válogatás során.
Érdekes, hogy a rendkívül bő szókincsű CC-CEDICT fedése is folyamatosan csökken. Erről írtam két összetartozó szöveget, itt és itt olvashatók. A lényeg: nem egyértelmű, hogy mi is pontosan egy szó; ahány forrást elemzünk, annyi különböző választ találunk.
Címkék
A szótár összesen 18 különböző címkét használ. (Címke alatt a jelentés elején álló zárójelezett részt értem.) Alább a címkék, és hogy hányszor fordulnak elő az anyagban.
236 családnév 141 átirat 130 kifejezés 127 földrajzi név 127 számlálószó 34 tulajdonnév 13 rövidítés 10 szleng 9 indulatszó 9 átvitten 8 hangutánzó 7 vulgáris 6 szó szerint 3 toldalék 3 köznyelvi 2 tabu 2 nyelvjárási 1 cím
Magyar szóalakok
A 24.554 jelentésben 13.389 különböző magyar szóalak és szótöredék fordul elő. (Szótöredékről ott beszélünk, ahol a | karakterrel a szótár jelöli egy-egy összetett szó vagy igekötős ige részeit.) A leggyakoribb 50, előfordulási számmal:
1005 meg 56 fog 695 el 53 ember 581 ki 51 hagy 392 fel 49 lép 271 be 48 hely 271 le 48 magát 225 a 47 minden 188 össze 46 állít 171 nem 43 csak 152 át 42 ér 146 van 42 néz 125 és 41 előre 121 az 41 mint 112 ad 41 hoz 104 vesz 41 tér 96 tesz 40 vezet 88 vissza 39 rá 87 megy 37 idő 79 tart 37 erő 78 hogy 37 bele 67 áll 37 még 64 elő 37 nő 62 nagy 37 köt 58 egy 36 pont 56 jó 36 visz
A leggyakoribb alakok a magyar keresés során speciálisan viselkednek: az oldal csak a teljes jelentéseket adja vissza. Felhasználóként nem sokra mennék 171 találattal, amiben valahol mind szerepel a „nem” szó.
Számlálószavak
A kiinduló anyag 983 szóhoz ad meg számlálószót, esetenként egynél többet is. Összesen 123 különböző számlálószó fordul elő. A leggyakoribb 20, előfordulási számmal (egyszerűsített írásjegyek):
444 个 25 片 56 条 23 根 55 只 23 份 41 位 22 块 37 张 22 件 36 次 21 种 29 把 20 部 27 场 20 颗 27 家 19 项 25 座 18 间
Többértelműség, szóhossz és gyakoriság
Intuitíven érezzük, hogy a gyakori szavak jellemzően rövidebbek, és azt is, hogy a rövid és gyakori szavak többsége sok jelentéssel rendelkezik, illetve nehezen körülírható magyarul.
Megerősíti-e ezt a benyomást a szótár tartalma? Az alábbi diagramon ismét a gyakorisági listára vetítem a CHDICT címszavait, és azt ábrázolom, hogy ha a sorrendezett kínai szavakat ezresével értékeljük, átlagosan hány magyar jelentést sorol fel a szótár, illetve átlagosan hány írásjegyből áll a címszó.
Látható, hogy a jelentések száma (kék adatsor) egyértelműen csökken.
Az átlagos szóhossz először felkúszik 2 köré, ott stabilizálódik, majd a ritkább tartományban ismét emelkedésnek indul. Ez összhangban van egy másik ismert megfigyeléssel, miszerint a kínai „törekszik” a páros szótagszámra, ami a szavak többségénél pontosan 2 szótagot jelent.
A diagramon a 6 ezres pont fölött, vagyis a ritkább tartományban, nagyobb kilengéseket mutat mind a két érték. Ez természetes, mert ahogy korábban láttuk, ebben a régióban a szótár fedése már igen ritkás, így nagyobb szerepe van a véletlennek.