Számítógépes nyelvészet

Nyelvészet
Általános nyelvészet
Fonológia · Morfológia Szintaxis Szemantika · Pragmatika Stilisztika · Lexikológia
Leíró nyelvészet
Fonetika Etimológia · Nyelvtörténet Történeti-összehasonlító nyelvészet Nyelvtipológia Kontrasztív nyelvészet Areális nyelvészet Dialektológia Kontaktusnyelvészet Gendernyelvészet
Alkalmazott nyelvészet
Anyanyelv-pedagógia Fordítástudomány Idegennyelv-oktatás Igazságügyi nyelvészet Lexikográfia Nyelvpolitika és nyelvi jogok Terminológia
Nyelvészeti irányzatok
Formális nyelvtan Kognitív nyelvészet Strukturalizmus Szociolingvisztika
Interdiszciplínák
Antropológiai nyelvészet Diskurzuselemzés Szövegnyelvészet Korpusznyelvészet Névtan Neurolingvisztika Pszicholingvisztika Nyelvtechnológia Számítógépes nyelvészet
Kapcsolódó területek
Helyesírás Kommunikációtan · Retorika Szemiotika
Sablon:Nyelvészet m v sz

A számítógépes nyelvészet olyan műszaki tudomány, amely a természetes nyelvű szövegek számítógépes feldolgozásával foglalkozik, de minden olyan elméleti és gyakorlati tevékenység ide tartozik, amely kapcsolatban van a természetes nyelvekkel. Egy interdiszciplína, vagyis olyan szakterület, amely több terület eredményeire és tudására épül, mint pl. az informatika, a matematika és a nyelvészet.^[1]

A számítógépes nyelvészet története

A számítógépes nyelvészet az 50-es és a 60-as években a gépi fordításból indult el. A kutatást elsősorban gazdasági és politikai okok mozgatták az Amerikai Egyesült Államokban, Kínában és az akkori Szovjetunióban. Több elnevezése ismert pl. kibernetika, információelmélet vagy nyelvtechnológia. A fogalom nem összetévesztendő a programozási nyelvvel, amelynek szinonimájaként a számítógépes nyelv is használatos.

A 60-as évek végéig az általánosan használt háttértároló a mágnesszalag volt, amely nemcsak lassúsága miatt, hanem alacsony tárolókapacitása miatt sem volt alkalmas nagy mennyiségű adatok tárolására. Később a mágnesszalagot felváltotta a mágneslemez és a virtuális memória.^[2] A számítógép valóságos forradalmat okozott az alkalmazott nyelvtudományban, robbanásszerűen kiszélesítette a felhasználási területeket.^[3]

A számítógépes nyelvészet elsőszámú célterülete a gépi fordítás, de emellett egyre több igény jelent meg e nyelvészeti ággal szemben. Mint például az automatikus kivonatolás és statisztikai jellegű információk előállítása az előbb említett nagyhatalmak számára, egymás újságjaiból és napilapjaiból. Majd ezekből a kivonatolt információkból szöveges összefoglalók készítése.^[2] Ma már a számítógépes nyelvészet jelen van a nyelvi statisztikák készítésében, a fordítás és szótárkészítés segítésében, nagy terjedelmű szövegek tárolásában a korpusznyelvészetben, a helyesírás-ellenőrző programok készítésében és az internetes keresőrendszerek létrehozásában.

Először 1954-ben, New Yorkban fordított egy IBM-701-es számítógép néhány mondatot angolról oroszra,^[4] majd 1957-ben készült el az első magyar-orosz gépi fordítási program. Ez a program csak olyan válogatott mondatokat tudott lefordítani, amelyekben sok mechanikusan ismétlődő rész volt.^[5] A gépi fordítási mozgalom nagy lendülete a 60-as évek elejéig tartott, mert kiderült, hogy a probléma sokkal bonyolultabb és a nyelv sokkal összetettebb struktúra annál, mint ahogy azt először gondolták.^[6]

A számítógépes nyelvészet céljai és eszközei

A gép a nyelvet szövegként, sőt betűk sorozataként érzékeli, számára ezek számkódok (egyesek és nullák) sorozata, ahol az egyes számkódok betűket és írásjeleket képviselnek. Nemcsak tárolnia és megjelenítenie kell a szöveget, hanem fel kell ismernie a benne lévő nyelvi szerkezeteket is. A természetes nyelvekben szabályszerűségek vannak és ezeket kell megtalálnia. Legalapvetőbb leírási szintje a számítógépes morfológia és szintaxis, amelyeknek bonyolultsága nyelvfüggő.^[1] Automatikus, használható fordítási kulcsot nem lehet létrehozni, minden esetben a felhasználó aktív közreműködése szükséges, a gép (még) nem tud az ember helyett fordítani. A fordítógépek programjaitól nem várhatunk többet, mint más nyelvtani összeállításoktól.^[5]^[6]A szavak és mondatok valódi tartalmának felismeréséhez és megfelelő kezeléséhez világismeretre van szükség.^[1]

Ma már nem is mesterséges intelligenciáról, hanem inkább nyelvtechnológiáról beszélünk, aminek a mindennapokban is használt sikerei közé tartozik például a helyesírás-ellenőrzés, a szövegkivonatolás, a bankszámlaegyenleg lekérdezése, a mozijegyrendelés és bizonyos területeken (mint például a kanadai időjárás-jelentés) a gépi fordítás. Ezek és más hasonló alkalmazások a nyelvtechnológia egyes részfeladatainak megoldásával jöhettek létre.^[7]

Beszédfelismerés: a hallgató szerepében a gép első feladata a felhasználó által adott akusztikus jelek felismerése és a folyamatos hanghullám nyelvi egységekre bontása.
Beszédszintézis: a dialógus másik oldalán a gépnek tudnia kell beszédhangokat szintetizálni és ezeket folyamatos beszéddé alakítani.
Parsing (elemzés): a nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása).
Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő ún. deiktikus kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetők.
Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését. Tekinthető ez úgy, mint a parsing és a szemantikai elemzés fordított irányú alkalmazása.
Inferencia: egy bonyolultabb, háttértudással vagy tanulómemóriával rendelkező rendszer logikai következtetések levonására is alkalmas lehet, amivel input hiányában is kinyerhet új információt. Ezt a folyamatot nevezzük inferenciának.^[7]

Jegyzetek

↑ ^a ^b ^c [[Kenesei István (nyelvész)|]] (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004.
↑ ^a ^b Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989.
↑ Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986.
↑ 701 Translator, IBM sajtóközlemény, 1954 jan. 8. - oroszról angolra
↑ ^a ^b Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003.
↑ ^a ^b Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968.
↑ ^a ^b Babarczy Anna: Számítógépes nyelvészet

Források

Babarczy Anna: Számítógépes nyelvészet
Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968
Kenesei István (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004
Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986
Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989
Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003
Alberti Gábor: Matematika a természetes nyelvek leírásában, Budapest, Tinta Könyvkiadó, 2006
Klaudy Kinga (szerkesztő): Papp Ferenc olvasókönyv Papp Ferenc válogatott nyelvészeti tanulmányai, Budapest, Tinta Könyvkiadó, 2006
Szirmai Monika: Bevezetés a korpusznyelvészetbe A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában, Budapest, Tinta Könyvkiadó, 2006

Külső hivatkozások

Babarczy Anna: Számítógépes nyelvészet ^{[halott link]}
Magyar morfológiai elemző és generátor foma morfológiai eszköz használatával

Nemzetközi katalógusok	LCCN: sh85077224 GND: 4035843-4 NKCS: ph115862 BNF: cb11939297d

Sablon:Pszicholingvisztika m v sz Pszicholingvisztika
Beszéd	Beszédprodukció Beszédpercepció Megakadásjelenségek Beszédészlelés Beszédmegértés Mentális lexikon
Agyi lokalizáció	Agyfélteke-dominancia Wernicke-terület Broca-terület
Nyelvelsajátítás	Anyanyelv-elsajátítás Idegennyelv-elsajátítás Kétnyelvűség
A beszédprodukció és a beszédfeldolgozás zavarai	Beszédzavarok Nyelvi zavar Fejlődési diszfázia Afázia Diszlexia Diszgráfia Dadogás Hadarás Mutizmus Agrammatizmus
Számítógépes nyelvészet	Nyelvtechnológia