CHDICT汉匈词典
CHDICT 汉匈词典
Keres Változások Olvas Keresési tippek Korpusz GYIK Egyéb Letölt Felhasználók
HU EN
 

A CHDICT törzsanyaga számokban

Könnyű elintézni egy szótár terjedelmét azzal, hogy 10.888 címszót és 24.554 magyar jelentést tartalmaz. Ezek a CHDICT kiinduló anyagának fő paraméterei 2017 májusában. Én ennél kíváncsibb természet vagyok, ezért kigyűjtöttem pár rafináltabb statisztikát is.

Fedés és szógyakoriság

Vettem a SUBTLEX-CH szógyakorisági lista első 40 ezer elemét, és megnéztem, a CHDICT hányat tartalmaz az 1., 2., 3. stb. leggyakoribb ezer szó közül. Ez látható a lenti diagramon, piros színnel. Érdekességként mellé tettem ugyanezeket a számokat a 110 ezer szócikkes CC-CEDICT szótárra vonatkozólag, kék színnel.

.

Látható, hogy az első 6 ezer szóig a fedés majdnem 100%-os, vagyis minden ezres csoportból közel 1000 megtalálható a CHDICT-ben. Ez nem meglepő, hiszen a címszavakat pontosan ez alapján a szógyakorisági lista alapján válogattam be.

Efölött a CHDICT fedése élesen esik. A váltópont jóval 10 ezer szó alatt van, viszont a mintegy 11 ezer szócikk között számos ritkább szó is megtalálható. Ennek oka, hogy a HSK 6 ezres szólistáját a gyakoriságra való tekintet nélkül felvettem, a HSK összeállítói pedig szemmel láthatóan nem a csupán gyakoriságra összpontosítottak a válogatás során.

Érdekes, hogy a rendkívül bő szókincsű CC-CEDICT fedése is folyamatosan csökken. Erről írtam két összetartozó szöveget, itt és itt olvashatók. A lényeg: nem egyértelmű, hogy mi is pontosan egy szó; ahány forrást elemzünk, annyi különböző választ találunk.

Címkék

A szótár összesen 18 különböző címkét használ. (Címke alatt a jelentés elején álló zárójelezett részt értem.) Alább a címkék, és hogy hányszor fordulnak elő az anyagban.

236	családnév
141	átirat
130	kifejezés
127	földrajzi név
127	számlálószó
34	tulajdonnév
13	rövidítés
10	szleng
9	indulatszó
9	átvitten
8	hangutánzó
7	vulgáris
6	szó szerint
3	toldalék
3	köznyelvi
2	tabu
2	nyelvjárási
1	cím

Magyar szóalakok

A 24.554 jelentésben 13.389 különböző magyar szóalak és szótöredék fordul elő. (Szótöredékről ott beszélünk, ahol a | karakterrel a szótár jelöli egy-egy összetett szó vagy igekötős ige részeit.) A leggyakoribb 50, előfordulási számmal:

1005	meg		56	fog
695	el		53	ember
581	ki		51	hagy
392	fel		49	lép
271	be		48	hely
271	le		48	magát
225	a		47	minden
188	össze		46	állít
171	nem		43	csak
152	át		42	ér
146	van		42	néz
125	és		41	előre
121	az		41	mint
112	ad		41	hoz
104	vesz		41	tér
96	tesz		40	vezet
88	vissza		39	rá
87	megy		37	idő
79	tart		37	erő
78	hogy		37	bele
67	áll		37	még
64	elő		37	nő
62	nagy		37	köt
58	egy		36	pont
56	jó		36	visz

A leggyakoribb alakok a magyar keresés során speciálisan viselkednek: az oldal csak a teljes jelentéseket adja vissza. Felhasználóként nem sokra mennék 171 találattal, amiben valahol mind szerepel a „nem” szó.

Számlálószavak

A kiinduló anyag 983 szóhoz ad meg számlálószót, esetenként egynél többet is. Összesen 123 különböző számlálószó fordul elő. A leggyakoribb 20, előfordulási számmal (egyszerűsített írásjegyek):

444	个	25	片
56	条	23	根
55	只	23	份
41	位	22	块
37	张	22	件
36	次	21	种
29	把	20	部
27	场	20	颗
27	家	19	项
25	座	18	间

Többértelműség, szóhossz és gyakoriság

Intuitíven érezzük, hogy a gyakori szavak jellemzően rövidebbek, és azt is, hogy a rövid és gyakori szavak többsége sok jelentéssel rendelkezik, illetve nehezen körülírható magyarul.

Megerősíti-e ezt a benyomást a szótár tartalma? Az alábbi diagramon ismét a gyakorisági listára vetítem a CHDICT címszavait, és azt ábrázolom, hogy ha a sorrendezett kínai szavakat ezresével értékeljük, átlagosan hány magyar jelentést sorol fel a szótár, illetve átlagosan hány írásjegyből áll a címszó.

.

Látható, hogy a jelentések száma (kék adatsor) egyértelműen csökken.

Az átlagos szóhossz először felkúszik 2 köré, ott stabilizálódik, majd a ritkább tartományban ismét emelkedésnek indul. Ez összhangban van egy másik ismert megfigyeléssel, miszerint a kínai „törekszik” a páros szótagszámra, ami a szavak többségénél pontosan 2 szótagot jelent.

A diagramon a 6 ezres pont fölött, vagyis a ritkább tartományban, nagyobb kilengéseket mutat mind a két érték. Ez természetes, mert ahogy korábban láttuk, ebben a régióban a szótár fedése már igen ritkás, így nagyobb szerepe van a véletlennek.