FormavimasKoledžai ir universitetai

Kas yra tekstynų lingvistika?

Vos prieš keletą dešimtmečių automatizuoti kalbų tyrimus, mokslininkai galėjo tik pasvajoti. Darbas buvo atliekamas rankiniu būdu, jis pritraukia didelį skaičių mokinių, yra didelė tikimybė, "neatsargus" klaidų, o svarbiausia - visa tai užtruko ilgai, ilgai.

Su kompiuterinių technologijų plėtra tapo įmanoma atlikti tyrimus remiantis eile greičiau, ir šiandien yra viena iš perspektyviausių krypčių kalbos tyrimas yra tekstynų lingvistika. Jos pagrindinis bruožas, yra didelių sumų tekstinės informacijos pagalba, informacijos naudojimas į vieną duomenų bazę, ypatingu būdu ir vadinamas pažymėtą kūno.

Iki šiol, yra daug pastatų, sukurtų su skirtingais tikslais dėl įvairių kalbų medžiaga, apimanti nuo milijonų iki dešimčių milijardų leksinių vienetų pagrindu. Ši kryptis yra pripažinta kaip perspektyvi ir demonstruoja didelę pažangą paraiškos ir mokslinių tyrimų tikslais. Ekspertai, vienu ar kitu būdu kovojant su gamtos kalba, rekomenduojama susipažinti su tekstais kūno bent pagrindinio lygio.

Istorija tekstynų lingvistikos

Šio tendencijos formavimas yra dėl to, kad Jungtinių Amerikos Valstijų sukūrimo Brown kūno pradžioje 60-ųjų praėjusio šimtmečio. Kolekcija apima visus 1 milijonų žodžių formų tekstus, o šiandien tokio dydžio kūno būtų visiškai nekonkurencinga. Tai daugiausia dėl to, kad plėtros kompiuterinės technologijos tempu, taip pat augančiais naujų mokslinių tyrimų išteklius.

90s tekstynų lingvistika iškilo į visapusišką ir nepriklausomą disciplinos, iš tekstų rinkinys buvo sudarytas ir pažymėtas dešimtis kalbų. Per šį laikotarpį jis buvo sukurtas, pavyzdžiui, Britų nacionalinė Korpus 100 milijonų žetonų.

Su šios kalbotyros srities plėtrai, teksto apimtis yra vis labiau ir labiau (ir pasiekti milijardus žodyno vienetų) ir išdėstymo tampa įvairesnė. Iki šiol, internetas erdvėje galima rasti skerdenų raštu ir žodžiu kalbą, įvairiakalbis ir mokymosi orientuotos meninės ar akademinę literatūrą, taip pat daug kitų rūšių.

Kokie būsto

Kūno tipai kūno lingvistikos gali būti teikiama dėl kelių priežasčių. Intuityviai, klasifikavimo pagrindas gali būti tekstas kalba (vokiečių, rusų), prieigos režimas (atviro kodo, uždarytas, komercinė), iš žaliavinės medžiagos (fantastika, dokumentika, mokslo, žurnalistikos) Žanras.

Įdomiai generuoja medžiagos sakytinės kalbos. Kadangi tyčinis įrašymo tokio žodžio sukurti dirbtinį aplinka respondentų, o gauta medžiaga negali būti vadinamas "spontaniškai", modernios tekstynų lingvistikos nuėjo į kitą pusę. Savanoris įrengtas su mikrofonu, ir per dieną pagaminti visų pokalbių, kuriuose ji dalyvauja rekordą. Žmonės aplink, žinoma, negali žinoti, kad kasdienio pokalbio žinoma prisideda prie mokslo plėtros.

Vėliau gavo įrašą, saugomą duomenų bazėje ir lydi atspausdintas tekstas stenograma tipo. Taigi, tampa įmanoma žymėjimas reikia sukurti oralinis kasdien kalbos būstą.

taikymas

Jei įmanoma, kalbos vartojimas, ir galbūt Pastatų tekstų naudojimas. Metodai taikyti kalbotyros korpuso gali būti:

  • programą, nustatančią raktą kūrimas, plačiai naudojama politikoje ir versle sekti teigiamų ir neigiamų atsakymų rinkėjų ir klientams, atitinkamai.
  • Ryšio informacija sistema žodynų ir vertėjų, siekiant pagerinti jų efektyvumą.
  • Iš mokslinių tyrimų užduotis kurie prisideda prie kalbos vienetas, jos plėtros ir prognozavimo pokyčių artimiausiu istorijos supratimą įvairovė.
  • Informacinių paieškos sistemose remiantis morfologinių, sintaksinių, semantinių ir kitų funkcijų.
  • Optimizavimas skirtingų kalbinių sistemų ir kt.

Naudojimas pastatų

panašus išteklių sąsajos su tipiškas paieškos variklis, ir paragina vartotoją Įveskite žodį ar žodžių junginį ieškoti informacijos bazę. Be sudaro tiksli užklausa galite naudoti patobulintą versiją, kuri leidžia rasti tekstinę informaciją beveik bet kalbinių kriterijus.

paieška bazė gali būti:

  • priklausymo tam tikrai grupei kalbos dalių;
  • gramatinės funkcijos;
  • semantika;
  • stilistinė ir emocinis dažymas.

Jūs taip pat galite sujungti paieškos kriterijus žodžių seka, pavyzdžiui, rasti visus veiksmažodžio įvykių šioje įtempta, pirmojo asmens vienaskaitos, kuri ateina po prielinksnio "į" ir į galininko atveju daiktavardžiu. Sprendimas toks paprastas uždavinys laikosi vartotojui keletą sekundžių ir reikalauja tik keletas pelės paspaudimų nurodytais laukų.

Galimybę sukurti procesas

Pati paieška gali būti atliekama visų subcorpus ir vienas specialiai pasirinko, priklausomai nuo į pasiekti tam tikrą tikslą poreikius:

  1. Pirmas žingsnis yra nustatyti, kurie tekstų sudaro pagrindą atveju pagrindą. Praktiniais tikslais, ji yra dažnai naudojama žurnalistikos, naujienas, internetinius komentarus. Mokslinių tyrimų projektas yra įvairių paketų tipų naudojimas, tačiau tekstas turi būti parenkamas pagal tam tikrą bendrą pagrindą.
  2. Gautas kolekcija tekstų kuriai atliktas paruošiamasis apdorojimas, yra klaidų taisymas, jei tokių yra, parengta bibliografinė ir itin kalbų aprašymo tekste.
  3. Šalinamas visas ne tekstinę informaciją: Išvalo grafikos, paveikslėlių, lentelių.
  4. Yra žetonų, kurie paprastai kalba, tolesniam perdirbimui paskirstymas.
  5. Pagaliau, ji atliko morfologinės, sintaksinį ir kitų ženklus gauti daugybę elementų.

Visų sandorių, sudarytų pagal sintaktinių struktūros su jos dalyje daugybė elementų,, iš kurių kiekvienas yra nustatytas dalį žodžio, ir gramatinių, kai kuriais atvejais, semantinių požymių daugybės rezultatas.

Sunkumai sukurti pastatus

Svarbu suprasti, kad nėra pakankamai sudėti keletą žodžių ar sakinių rinkinį organizmui. Viena vertus, tekstų rinkimas turi būti subalansuotas, tai yra, atstovauti įvairių tipų tekstus tam tikromis proporcijomis. Kita vertus - aptvaros turinys turėtų būti išdėstyti specialiu būdu.

Pirmoji problema yra išspręsta pagal susitarimą: pavyzdžiui, kolekcijos apima 60% literatūros tekstų, 20% dokumentinių, tam tikras procentas skiriamas raštišką atstovavimą šnekamosios kalbos, teisės aktų, mokslo darbų ir tt puikus receptas subalansuotas kūno šiandien neegzistuoja ...

Antras klausimas dėl turinio išdėstymą, spręsti sudėtingas. Yra specialios programos ir algoritmai naudojami automatinio žymėjimo tekstų, tačiau jie nesuteikia tobulą rezultatą, gali sukelti sutrikimų ir reikalauja vadovą perdarymas. Galimybių ir uždavinių, sprendžiant šią problemą yra išsamiai aprašyta popieriaus V. p Zaharova iš tekstynų lingvistikos.

Tekstas antkainis yra įgyvendinama keliais lygiais, kurie išvardyti toliau.

morfologinė žymėjimas

Iš mokyklos, mes prisimename, jog rusų kalba, yra įvairių kalbos dalių, ir kiekviena iš jų turi savo savybes. Pavyzdžiui, veiksmažodis turi kategorijas polinkį ir laiką, kada ne noun. GIMTOJI neabejojant atsisako daiktavardžių ir konjuguota veiksmažodžiai, tačiau pažymėti 100 mln kūną. žetonai rankų darbo neveiks. Visos reikalingos operacijos gali atlikti kompiuterio, tačiau už tai jis turi būti mokomi.

Morfologinis žymėjimas, kompiuteris turi "suprasti" kiekvieną žodį, kaip tam tikroje kalboje, turintis tam tikrų gramatinių funkcijų. Nuo Rusijos (ir bet kuri kita kalba) veikia reguliariai taisyklių skaičių, tai galima sukurti automatinę procedūrą morfologinės analizės, investuojant į automobilį už algoritmų skaičius. Tačiau yra išimčių iš taisyklės, o taip pat įvairių rizikos veiksnių. Kaip rezultatas, grynasis kompiuterinės analizės šiandien yra toli nuo idealo, ir net 4% paklaida duoda reikšmę 4 mln. Žodžiai apie 100 mln. Vienetų kūno, reikalaujančios vadovą perdarymas.

Detali knyga aprašoma problema Zaharova V. P. "tekstynų lingvistika".

sintaksinis anotacija

Apdorojant ar analizuojant - procedūrą, kuri lemia žodžių santykius sakinio. Naudojant algoritmų rinkinį galima nustatyti tema, tarinio, papildymai, kelis posūkius kalbos tekstą. Sužinokite, kurie žodžiai yra pagrindinė seka, ir kurie - priklauso, mes galime efektyviai išgauti informaciją iš teksto ir mokyti mašina išduoti reaguojant į paieškos prašymu tik tą informaciją Įdomios mumis.

Beje, šiuolaikiniai paieškos sistemos naudoja tai duoti konkrečius numerius vietoj ilgų tekstų reaguojant į aktualius klausimus, pavyzdžiui, "Kiek kalorijų obuolių" arba "atstumas iš Maskvos į Sankt Peterburgą." Vis dėlto, suprasti net aprašytų poreikiu remtis "Įvadas į tekstynų lingvistikos" ar kito pagrindinio pamoka proceso pagrindai.

semantinis žymėjimas

Žodžio semantika - tai, paprastais žodžiais, prasme. Plačiai taikoma požiūris į semantinės analizės žodį priskyrimo žymeles, atspindintis jo priklausymo semantines kategorijas ir subkategorijas rinkinys. Tokia informacija yra vertinga optimizuoti algoritmai analizuoja teksto tonas, automatinis santraukos ir kitų užduočių metodus tekstynų lingvistikos.

Yra "root" medžio, skaičius, reiškiantis abstrakčią žodis su labai plačiomis semantika. Kaip yra suformuotas iš medžių mazgų filialas, kuriame yra daugiau ir konkretesnių leksikos elementus. Pavyzdžiui, žodis "padaras" gali būti susijęs su tokiomis sąvokomis kaip "žmogaus" ir "gyvūno". Pirmas žodis tęs išsišakoti į įvairių profesijų, giminystės terminų, tautybės, o antrasis - nuo klasių ir rūšių gyvūnams.

Informacijos paieškos sistemų naudojimas

Naudojimo sritys ir tekstynų lingvistikos padengti įvairias veiklos sritis. Korpusai naudojami rengiant ir korekcijos žodynų, sukurti automatinio vertimo sistemos, anotuoti, ieškančiai faktus, lemiančius tonas ir kito teksto apdorojimą.

Be to, šie ištekliai yra aktyviai naudojama pasaulio kalbų ir mechanizmų funkcionavimo kalba apskritai tyrime. Prieiga prie didelės apimties anksto paruoštą informaciją palengvina greitą ir išsamų tyrimą plėtros kalbomis tendencijas ir stabilios formavimo naujadarai kalboje greičio pokyčio vertės leksinius vienetus ir kt.

Kadangi darbas su tokiais dideliais kiekiais duomenų reikia automatizuoti, šiandien yra glaudus bendradarbiavimas tarp kompiuterio ir tekstynų lingvistikos.

Rusijos nacionalinis Korpus

Ši byla (sutrumpintai NKRYA) apima subcorpus skaičių, leidžianti išteklių naudojimą įvairių užduočių.

Medžiagos duomenų bazėje skirstomi NKRYA:

  • į publikacijomis žiniasklaidoje "90s ir 2000-ieji, tiek vidaus, tiek užsienio;
  • įrašymo kalbą;
  • aktsentologicheski pažymėtos tekstų (t.y., streso ženklai);
  • tarmė kalbos;
  • poezija;
  • Medžiagos, kurių sintaksinių ir kiti ženklai.

Informacinė sistema taip pat apima Subcorpus su lygiagrečių vertimų darbams iš rusų į anglų, vokiečių, prancūzų ir daug kitų kalbų (ir atvirkščiai).

Taip pat į duomenų bazę, yra istorinių tekstų skyriuje, atstovaujanti raštišką kalbą rusų kalba skirtingais laikotarpiais jos plėtrą. Taip pat yra mokymo įstaigoje, kuri gali būti naudinga užsienio piliečių įsisavinti rusų kalbą.

Rusijos nacionalinis Korpus sudaro 400 mln leksinius vienetus ir daugeliu atžvilgių lenkia didelę dalį Europos institucijų kalbų.

perspektyvos

Faktas naudai iš šios tendencijos pripažinimo yra perspektyvus laboratorinius tekstynų lingvistikos Rusijos universitetuose, taip pat užsienio prieinamumą. Su naudojimo ir mokslinių tyrimų šia informacija ir paieškos išteklių sistemą reiškia tam tikrų sričių aukštųjų technologijų, klausimas-atsakyti sistemų srityje plėtrą, bet tai buvo aptarta anksčiau.

Tolesnis tekstynų lingvistikos Prognozuojama visais lygiais, pradedant nuo techninių ir kalbant apie įgyvendinimo naujus algoritmus, kad optimizuoti paieškos ir apdoroti informaciją, suteikiančio kompiuterius, daugiau RAM, ir baigiant kasdien procesus, nes vartotojai vis daugiau ir daugiau būdų, kaip naudoti šią ištekliaus tipas kasdieniame gyvenimą ir darbą.

užbaigiant

Atsižvelgiant į praėjusio amžiaus 2017 m viduryje atrodė tolimoje ateityje, kur kosminiai keliauti per visą visatą ir robotai padaryti visą darbą už žmonių darbą. Tiesą sakant, mokslas yra aprūpintas su "baltos dėmės" ir todėl beviltiška bandoma atsakyti į žmonijos klausimus šimtmečius nerimą. Klausimai veikimą kalba čia užima garbingą vietą ir kabineto ir kompiuterinės lingvistikos gali padėti mums į juos atsakyti.

Apdorojimo didelių duomenų rinkinių gali aptikti modelius, anksčiau neprieinama, prognozuoti konkrečių kalbos funkcijų plėtrą sekti žodžių susidarymą beveik realiu laiku.

Praktiniu požiūriu, pasaulio kabinos gali būti vertinamas, pavyzdžiui, kaip potencialus įrankis įvertinti visuomenės nuotaikas - internetas yra nuolat atnaujinama kasdien įvairūs tekstai sukurti realių vartotojų: tai komentarai ir nuomones, ir straipsniai, ir daugelis kitų formų kalboje.

Be to, dirbant su korpuso skatina tos pačios įrangos, kurie yra susiję su informacijos paieškos plėtrą, esame susipažinę su paslauga "Google" ar "Yandex" ", mašininį vertimą, elektroninių žodynų.

Galime drąsiai teigti kad tekstynų lingvistika daro tik pirmuosius žingsnius, ir artimiausioje ateityje bus klestėti.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lt.birmiss.com. Theme powered by WordPress.