Bugin
Ұлттық корпус – қазақ тілінің матрицасы
Осы кезге дейінгі қазақ тілі жөніндегі зерттеу жұмыстары – диссертация, монография, мақалалар ғалымдардың көп жылғы мысал жинау, картотека жасау жұмыстары арқылы жүргізілді. Бүгінде мұндай еңбектерді цифрлы кеңістікті пайдаланып, SMART іздеу жүйесі арқылы жедел әрі сапалы жазуға мүмкіндік туып отыр. SMART іздеу жүйесі бар лингвистикалық ресурс – корпус деп аталады.
Корпус – тіл білімі деңгейлерінің – морфология, сөзжасам, семантика, лексика, фонетика-фонологияға қатысты автоматтандырылған білімдер жүйесі, сонымен қатар қазақ тілінің 5 функционалды стилін қамтитын көлемді мәтіндер базасы (21 млн. сөзқолданыс).
Корпус – тіл білімімен айналысатын ғалымдар үшін ғана емес, жалпы қазақ тілін қолданушыларға ортақ пайдалы құрал.
Кез келген қазақстандық өзге ұлт өкілі өзінің күнделікті өмірінде тілдік орта қазақ тілді болғандықтан, қазақша коммуникацияны тыңдайды, дүкен атаулары, сән салондары, көлік, сауда орындарында қазақша атауларды кездестіреді, оқиды, қажетті жағдайда қолданады, кейбір сұрақтарға жауап береді.
Ал қазақ тілінде білім алып, жұмыс жасайтын адамдардың өмірі тікелей қазақ тілімен байланысты. Мәселен, «Dostyk plaza» сауда үйіне бардыңыз делік. Осындағы сауда үйінің атауы қазақтың «достық» сөзі. Ал сіз осы сөзді құрап тұрған дыбыстардың сипаты мен мағынасы туралы қаншалықты мол ақпарат білесіз? «Достық» сөзі туралы өз біліміңізді Қазақ тілінің ұлттық корпусы Qazcorpus беретін мәліметтермен салыстырып көріңіз. Корпусқа кіріп, «достық» сөзін терсеңіз, «достық» сөзі кездесетін 1281 мәтін таба аласыз. Сонымен бірге сөздің бірнеше мағынасы (адамдардың бір-біріне адал, қалтқысыз сеніп, бір мүдделі ортақ көзқарастағы жылы қатынасы; халықтар арасындағы бейбіт, ынтымақты қатынас), дыбыстардың сипаты («д» тіл ұшы босаң тоғысыңқы көмей қуысты; ұяң дауыссыз фонема, «о» ашық, еріндік, тіларты; жуан дауысты фонема, «с» тіл ұшы жинақы жуысыңқы көмей қуысты; қатаң дауыссыз фонема, «т» тіл ұшы нық тоғысыңқы көмей қуысты; қатаң дауыссыз фонема, «ы» қысаң, езулік, тіларты; жуан дауысты фонема, «қ» тілшік нық тоғысыңқы көмей қуысты; қатаң дауыссыз фонема. Достық жуан тембр, дос – бітеу буын, тық – бітеу буын), жасалу жолы (достық – зат есім, -тық – есімдіктен зат есім тудырушы жұрнақ, жалпы, дара, туынды, дерексіз) туралы ақпаратқа 1 минутта қол жеткізуге болады.
А.Байтұрсынұлы атындағы Тіл білімі институтының ғалымдары қазақ тіліндегі әрбір сөз туралы білімдер жүйесін бір ғана ресурстан тауып, уақытыңызды үнемдеуге мүмкіндік туғызып отыр. Корпуста тіл білімі туралы білімдер жинақталып, мүмкін болатын сұранысыңызға қарай бағытталған іздеу жүйесі жасалған. Корпустан сөз, сөз тіркес, сөйлем, сөз соңындағы жалғаулар арқылы іздеу жүргізіп, автор, тақырып, мерзім, дереккөз, стиль, аудитория типі, таралым типі, жынысты таңдауға болады. Мәселен, Сіз сөзді М.Әуезовтің шығармаларынан іздегіңіз келсе, осы аталған ұяшықтардағы «автор» деген батырманы басып, Әуезовті таңдай аласыз. Корпуста негізгі корпустан бөлек диалектологиялық ішкорпус (диалектологиялық ішкорпуста диалект сөздер кездесетін мәтін, сөздердің қай өлкеде, қандай мағынада қолданылаты туралы ақпарат беріледі), параллель ішкорпус (параллель ішкорпус қазақ тіліндегі мәтіннің орысша аудармасын немесе керсінше орыс тіліндегі мәтіннің қазақша аудармасын көрсетеді) сияқты ішкорпустар бар. Әр ішкорпустың мәтіндер базасы мен беретін ақпараты бір-бірінен ерекшеленеді. Корпусты қазақ тілінің цифрлы кеңістіктегі лингвистикалық сапалы талдауы бар ресурсы деп айтуға болады.
Корпус – қазақ тілін цифрлы кеңістік арқылы халықаралық аренаға шығаратын таптырмас лингвистикалық құрал. Қазақстанның ғана емес, өзге мемлекеттерде тұратын қазақ тілұстармандары және қазақ тіліне қызығушылық танытқан өзге ұлт өкілдері – шетелдіктер де қолдана алады.
Әлемдегі алғашқы Ұлттық корпус жасау ісі Америкалық Браун корпусынан басталған. Қазіргі кезде халықаралық тіл болып саналатын ағылшын тілінің Британ ұлттық корпусын бүкіл еуропа елдері қолданады, ал көршілес Орыс тілінің ұлттық корпусын Ресей құрамындағы және кирил қарпіндегі халықтар қолданып жүр. Бұл корпустың бір тілдің немесе бір елдің мұқтажын өтеу үшін ғана емес, әлемнің түкпір-түкпіріндегі тіл тұтынушыларына арналып жасалатындығын көрсетеді.
А.Байтұрсынұлы атындығаы Тіл білімі институтының ғалымдары жасап отырған Ұлттық корпус – қазақ тілін цифрлық кеңістікте әлемдік деңгейге шығарып, терезесін тең етуге тамшыдай үлес қоса алады деген ойдамыз.
Мақала авторы: Меруерт Нұрлан
А.Байтұрсынұлы атындағы Тіл білімі институты