Számítógépes nyelvészet

Nyelvészet
Általános nyelvészet

Fonológia · Morfológia
Szintaxis
Szemantika · Pragmatika
Stilisztika · Lexikológia

Leíró nyelvészet

Fonetika
Etimológia · Nyelvtörténet
Történeti-összehasonlító nyelvészet
Nyelvtipológia
Kontrasztív nyelvészet
Areális nyelvészet
Dialektológia
Kontaktusnyelvészet
Gendernyelvészet

Alkalmazott nyelvészet

Anyanyelv-pedagógia
Fordítástudomány
Idegennyelv-oktatás
Igazságügyi nyelvészet
Lexikográfia
Nyelvpolitika és nyelvi jogok
Terminológia

Nyelvészeti irányzatok

Formális nyelvtan
Kognitív nyelvészet
Strukturalizmus
Szociolingvisztika

Interdiszciplínák

Antropológiai nyelvészet Diskurzuselemzés
Szövegnyelvészet
Korpusznyelvészet
Névtan
Neurolingvisztika
Pszicholingvisztika
Nyelvtechnológia
Számítógépes nyelvészet

Kapcsolódó területek

Helyesírás
Kommunikációtan · Retorika
Szemiotika

Sablon:Nyelvészet
  • m
  • v
  • sz

A számítógépes nyelvészet olyan műszaki tudomány, amely a természetes nyelvű szövegek számítógépes feldolgozásával foglalkozik, de minden olyan elméleti és gyakorlati tevékenység ide tartozik, amely kapcsolatban van a természetes nyelvekkel. Egy interdiszciplína, vagyis olyan szakterület, amely több terület eredményeire és tudására épül, mint pl. az informatika, a matematika és a nyelvészet.[1]

A számítógépes nyelvészet története

A számítógépes nyelvészet az 50-es és a 60-as években a gépi fordításból indult el. A kutatást elsősorban gazdasági és politikai okok mozgatták az Amerikai Egyesült Államokban, Kínában és az akkori Szovjetunióban. Több elnevezése ismert pl. kibernetika, információelmélet vagy nyelvtechnológia. A fogalom nem összetévesztendő a programozási nyelvvel, amelynek szinonimájaként a számítógépes nyelv is használatos.

A 60-as évek végéig az általánosan használt háttértároló a mágnesszalag volt, amely nemcsak lassúsága miatt, hanem alacsony tárolókapacitása miatt sem volt alkalmas nagy mennyiségű adatok tárolására. Később a mágnesszalagot felváltotta a mágneslemez és a virtuális memória.[2] A számítógép valóságos forradalmat okozott az alkalmazott nyelvtudományban, robbanásszerűen kiszélesítette a felhasználási területeket.[3]

A számítógépes nyelvészet elsőszámú célterülete a gépi fordítás, de emellett egyre több igény jelent meg e nyelvészeti ággal szemben. Mint például az automatikus kivonatolás és statisztikai jellegű információk előállítása az előbb említett nagyhatalmak számára, egymás újságjaiból és napilapjaiból. Majd ezekből a kivonatolt információkból szöveges összefoglalók készítése.[2] Ma már a számítógépes nyelvészet jelen van a nyelvi statisztikák készítésében, a fordítás és szótárkészítés segítésében, nagy terjedelmű szövegek tárolásában a korpusznyelvészetben, a helyesírás-ellenőrző programok készítésében és az internetes keresőrendszerek létrehozásában.

Először 1954-ben, New Yorkban fordított egy IBM-701-es számítógép néhány mondatot angolról oroszra,[4] majd 1957-ben készült el az első magyar-orosz gépi fordítási program. Ez a program csak olyan válogatott mondatokat tudott lefordítani, amelyekben sok mechanikusan ismétlődő rész volt.[5] A gépi fordítási mozgalom nagy lendülete a 60-as évek elejéig tartott, mert kiderült, hogy a probléma sokkal bonyolultabb és a nyelv sokkal összetettebb struktúra annál, mint ahogy azt először gondolták.[6]

A számítógépes nyelvészet céljai és eszközei

A gép a nyelvet szövegként, sőt betűk sorozataként érzékeli, számára ezek számkódok (egyesek és nullák) sorozata, ahol az egyes számkódok betűket és írásjeleket képviselnek. Nemcsak tárolnia és megjelenítenie kell a szöveget, hanem fel kell ismernie a benne lévő nyelvi szerkezeteket is. A természetes nyelvekben szabályszerűségek vannak és ezeket kell megtalálnia. Legalapvetőbb leírási szintje a számítógépes morfológia és szintaxis, amelyeknek bonyolultsága nyelvfüggő.[1] Automatikus, használható fordítási kulcsot nem lehet létrehozni, minden esetben a felhasználó aktív közreműködése szükséges, a gép (még) nem tud az ember helyett fordítani. A fordítógépek programjaitól nem várhatunk többet, mint más nyelvtani összeállításoktól.[5][6]A szavak és mondatok valódi tartalmának felismeréséhez és megfelelő kezeléséhez világismeretre van szükség.[1]

Ma már nem is mesterséges intelligenciáról, hanem inkább nyelvtechnológiáról beszélünk, aminek a mindennapokban is használt sikerei közé tartozik például a helyesírás-ellenőrzés, a szövegkivonatolás, a bankszámlaegyenleg lekérdezése, a mozijegyrendelés és bizonyos területeken (mint például a kanadai időjárás-jelentés) a gépi fordítás. Ezek és más hasonló alkalmazások a nyelvtechnológia egyes részfeladatainak megoldásával jöhettek létre.[7]

  1. Beszédfelismerés: a hallgató szerepében a gép első feladata a felhasználó által adott akusztikus jelek felismerése és a folyamatos hanghullám nyelvi egységekre bontása.
  2. Beszédszintézis: a dialógus másik oldalán a gépnek tudnia kell beszédhangokat szintetizálni és ezeket folyamatos beszéddé alakítani.
  3. Parsing (elemzés): a nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása).
  4. Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő ún. deiktikus kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetők.
  5. Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését. Tekinthető ez úgy, mint a parsing és a szemantikai elemzés fordított irányú alkalmazása.
  6. Inferencia: egy bonyolultabb, háttértudással vagy tanulómemóriával rendelkező rendszer logikai következtetések levonására is alkalmas lehet, amivel input hiányában is kinyerhet új információt. Ezt a folyamatot nevezzük inferenciának.[7]

Jegyzetek

  1. a b c [[Kenesei István (nyelvész)|]] (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004.
  2. a b Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989.
  3. Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986.
  4. 701 Translator, IBM sajtóközlemény, 1954 jan. 8. - oroszról angolra
  5. a b Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003.
  6. a b Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968.
  7. a b Babarczy Anna: Számítógépes nyelvészet

Források

  • Babarczy Anna: Számítógépes nyelvészet
  • Fodor István: Mire jó a nyelvtudomány? Gondolat, Budapest, 1968
  • Kenesei István (szerk.): A nyelv és a nyelvek. Akadémiai Kiadó, Budapest, 2004
  • Papp Ferenc: Alkalmazott nyelvtudomány: Akadémiai székfoglaló: 1986. május 19. Akadémiai Kiadó, Budapest, 1986
  • Prószéky Gábor: Számítógépes nyelvészet. Számítástechnika-Alkalmazási Vállalat, Budapest, 1989
  • Simigné Fenyő Sarolta: Bevezetés az alkalmazott nyelvészetbe, Miskolci Egyetem, 2003
  • Alberti Gábor: Matematika a természetes nyelvek leírásában, Budapest, Tinta Könyvkiadó, 2006
  • Klaudy Kinga (szerkesztő): Papp Ferenc olvasókönyv Papp Ferenc válogatott nyelvészeti tanulmányai, Budapest, Tinta Könyvkiadó, 2006
  • Szirmai Monika: Bevezetés a korpusznyelvészetbe A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában, Budapest, Tinta Könyvkiadó, 2006

Külső hivatkozások

  • Babarczy Anna: Számítógépes nyelvészet [halott link]
  • Magyar morfológiai elemző és generátor foma morfológiai eszköz használatával
Nemzetközi katalógusok