Formacija, Fakulteti i sveučilišta

Što je korpusne lingvistike?

Samo prije nekoliko desetljeća za automatiziranje za lingvistička istraživanja, znanstvenici su mogli samo sanjati. Rad je učinjeno ručno, što privlači velik broj studenata, postoje značajne vjerojatnosti „bezbrižan” greške, i što je najvažnije - sve to je dugo, dugo vremena.

S razvojem računalne tehnologije postalo je moguće da se provede istraživanje na red veličine brže, a danas je jedan od najperspektivnijih pravaca u istraživanju jezika je korpusne lingvistike. Njegova glavna značajka je korištenje velikih količina podataka tekst, podatke u jedinstvenu bazu podataka, na poseban način i pod nazivom označeno tijelo.

Do danas, postoje mnogi objekti stvoreni s različitim svrhe na temelju različitih lingvističkih materijala u rasponu od milijuna do nekoliko milijardi leksičkih jedinica. Ovaj smjer je priznat kao obećavajuća i pokazuje značajan napredak prema prijave i istraživačke svrhe. Stručnjaci, ovaj ili onaj način bave prirodnim jezikom, preporučuje da se upoznaju s tijelom tekstova barem na osnovnoj razini.

Povijest korpusne lingvistike

Formiranje ovog trenda je zbog stvaranja SAD-u Brown tijela u ranim 60-ih godina prošlog stoljeća. Zbirka sadrži tekstove svih 1 milijun riječi oblika, a danas je tijelo ove veličine će biti potpuno nekonkurentna. To je uglavnom zbog tempo razvoja računalne tehnologije, kao i većim zahtjevima za novim istraživačkim resursima.

U 90 korpusne lingvistike pojavile u punom i samostalne discipline, zbirka tekstova su izrađene i označene za više desetaka jezika. U tom razdoblju je stvorena, na primjer, britanski nacionalni korpus 100 milijuna žetona.

S razvojem ovog područja lingvistike, tekst količine postaju sve više i više (i doći do milijarde rječnik jedinica), a izgled postaje sve raznovrsnija. Do sada, Internet prostor može se naći lešine napisali i govorni jezik, višejezično i učenja usmjerene umjetnički ili znanstvenoj literaturi, kao i mnoge druge vrste.

Što su kućište

tijela vrste u tijelu lingvistike može se predvidjeti iz nekoliko razloga. Intuitivno, osnova za razvrstavanje mogu biti tekstualni jezik (ruski, njemački), pristup načinu rada (open source, zatvoreni, trgovački), žanr izvornog materijala (igrani, dokumentarni, akademski, novinarstvo).

Zanimljiv način stvara materijala govornog jezika. Budući da je namjerno snimanje takvog govora stvoriti umjetni okoliš za ispitanika, a dobiveni materijal nije mogao biti nazvan „spontano”, moderni korpusne lingvistike je otišao na drugu stranu. Volonter je opremljen s mikrofonom, a tijekom dana proizveo evidenciju svih razgovora, u kojima sudjeluje. Ljudi oko, naravno, ne može znati da je u toku svakodnevnom razgovoru doprinosi razvoju znanosti.

Kasnije je primio zapis pohranjen u bazu podataka i popraćena tiskanim tipu tekst prijepisa. Dakle, to postaje moguće označavanje je potrebno stvoriti oralni dnevni govora stanovanja.

primjena

Gdje god je to moguće korištenje jezika, a možda i uporabu građevine tekstova. Metode za primjenu trupa u lingvistici mogu biti:

Izrada programa određivanje ključa, je naširoko koristi u politici i poslovnom pratiti pozitivne i negativne reakcije birača i kupaca, respektivno.
Priključak informacijski sustav za rječnika i prevoditelja za poboljšanje performansi.
Razne istraživačkih zadataka koji pridonose razumijevanju jezika jedinice, povijest njegova razvoja i predviđanje promjena u bliskoj budućnosti.
Razvoj pronalaženje sustava informacija na temelju morfoloških, sintaktičkih, semantičkih i druge značajke.
Optimizacija različitih jezičnih sustava i drugih.

Korištenje građevina

Sličan resurs sučelje s tipičnim tražilicu i traži od korisnika da unesete riječ ili kombinaciju riječi za traženje informacija baze. Poseban oblik točan upit mogu koristiti poboljšanu verziju, koja omogućuje da pronađete informacije u tekstu na gotovo bilo jezičnim kriterijima.

traženje baza može biti:

pripadnosti određenoj skupini dijelova govora;
gramatičke značajke;
semantike;
stilski i emocionalni bojanje.

Također možete kombinirati kriterije pretraživanja za niz riječi, na primjer, kako bi pronašli sve pojave glagola u sadašnjem vremenu, prvom licu jednine, koja dolazi nakon prijedloga „u” i imenice u akuzativ. Rješenje za takav jednostavan zadatak vodi korisnika nekoliko sekundi i zahtijeva samo nekoliko klikova mišem u navedenim poljima.

Proces stvaranja

Sam pretraživanje može se provesti na svim subcorpus a jedan je posebno izabrao, ovisno o potrebama u postizanju određenog cilja:

Prvi korak je definiranje koji tekstovi čine temelj za slučaj. Za praktične svrhe, to se često koristi novinarske, vijesti, online komentare. Istraživački projekt je upotreba raznih vrsta paketa, ali tekst treba odabrati prema nekom zajedničkom tlu.
Nastala zbirka tekstova podvrgnuti predobrada, tu je ispravak greške, ako ih ima, koje je pripremio bibliografska i ekstra-lingvistički opis teksta.
Eliminira sve ne-tekstualne informacije: Čisti grafike, slike, tablice.
Je li raspodjela tokena, koji su obično govor, za daljnju obradu.
Konačno, on provodi morfološki, sintaktičku i druge oznake dobije više elemenata.

Rezultat svih transakcija po sintaktičke strukture s distribuira u njemu veći broj elemenata, od kojih je svaki identificirani dio govora, gramatičke i, u nekim slučajevima, semantičkih obilježja.

Teškoće u stvaranju zgrada

Važno je shvatiti da nije dovoljno staviti zajedno skup riječi ili rečenica za tijelo. S jedne strane, skup tekstova treba biti uravnotežen, to jest, predstavljaju različite vrste tekstova u određenim omjerima. S druge - sadržaj ograde trebaju biti raspoređeni na poseban način.

Prvi problem je riješen dogovorom: na primjer, u zbirci obuhvaća 60% književnih tekstova, 20% dokumentaraca, određeni postotak se daje pisani prikaz govornog jezika, zakona, znanstvenih radova, itd savršen recept uravnotežena tijelo danas ne postoji ...

Drugo pitanje koje se odnosi na raspored sadržaja, riješiti izazov. Postoje posebni programi i algoritmi koji se koriste za automatsko označavanje teksta, ali oni ne daju savršen rezultat, može uzrokovati poremećaje i zahtijevaju ručno prerađuje. Mogućnosti i izazovi u rješavanju ovog problema su detaljno opisane u članku V. P. Zaharova korpusne lingvistike.

Text Markup se provodi na više razina, što smo popis u nastavku.

morfološka označavanje

Iz škole, sjećamo da je u ruskom jeziku, postoje različite vrste riječi, a svaki od njih ima svoje karakteristike. Na primjer, glagol ima kategorije sklonosti i vrijeme u kojem nema imenicu. izvorni govornik bez oklijevanja odbija imenice i konjugata glagole, ali za označavanje tijelo 100 milijuna kuna. žetonima ručni rad neće raditi. Sve potrebne radnje mogu izvršiti računalo, međutim, za to treba da se uči.

Morfološka označavanje, računalo mora „razumjeti” svaku riječ kao određeni dio govora ima određene gramatičke značajke. Budući da ruski (i bilo koji drugi jezik) djeluje niz redovitih pravila, moguće je izgraditi pokrenuli proceduru za morfološku analizu, ulaganjem u automobilu za nekoliko algoritama. Međutim, postoje iznimke od pravila, kao i razne komplicira čimbenika. Kao rezultat toga, neto računalo analiza danas je daleko od idealne, pa čak i 4% greška daje vrijednost od 4 milijuna kuna. Riječi na tijelu od 100 milijuna. Jedinica, koje zahtijevaju ručno prerađuje.

Detaljni knjiga opisuje problem Zaharova V. P. „korpusne lingvistike”.

sintaktička komentarima

Raščlanjivanje ili gramatičku analizu - postupak koji određuje odnos riječi u rečenici. Koristeći niz algoritama moguće je odrediti tekst subjekt, predikat, dodataka, više zavoja govora. Saznajte koje su riječi glavni slijed, a koji - ovisni smo učinkovito može izvući informacije iz teksta i naučiti stroj za izdavanje u odgovoru na zahtjev za pretraživanje samo informacije nas zanimljiv.

Usput, moderni tražilice koriste to davati konkretne brojeve umjesto dugih tekstova kao odgovor na relevantne upite kao što su „koliko kalorija u jabuku” ili „udaljenosti od Moskve do Sankt Peterburga.” Međutim, razumjeti čak i osnove postupkom koji je opisan od strane potrebe da se na „Uvod u korpusne lingvistike” ili drugog osnovne udžbenik.

semantička označavanje

Semantika riječi - je, pojednostavljeno rečeno, značenje. Široko primjenjiv pristup semantičke analize na slovo dodjeljivanja oznake, odražavajući svoju pripadnost skupu semantičkih kategorija i potkategorija. Takve informacije je vrijedna za optimiziranje algoritmi analizirati tekst ton, automatsko proučimo i druge poslove metode korpusne lingvistike.

Postoji veliki broj „root” stabla, što predstavlja apstraktni riječi s vrlo širokim semantike. Kako se formira ogranak čvorova stabla, koja sadrži sve više i više specifičnih leksičkih elemenata. Na primjer, riječ „stvorenje” može biti povezan s takvim pojmovima kao „ljudski” i „životinje”. Prva riječ će i dalje granaju u različita zanimanja, srodstvo smislu, nacionalnosti, a drugi - na klasama i vrstama životinja.

Korištenje pronalaženje sustava informacija

Područja uporabe korpusne lingvistike pokrivaju različite područja djelovanja. Kućišta se koriste za pripremu i korekciju rječnika, stvoriti automatiziran prijevod sustava, označavati, vraćajući činjenice, koje određuju ton i drugu obradu teksta.

Osim toga, takva sredstva se aktivno koriste u proučavanju svjetskih jezika i mehanizama funkcioniranja jezika u cjelini. Pristup velikim količinama unaprijed pripremljene podatke olakšava brzu i sveobuhvatnu studiju o trendovima razvoja jezika i stabilne formiranje neologizmi brzina govora promjena vrijednosti leksičkih jedinica i drugima.

Budući da je rad s takvim velikim količinama podataka zahtijeva automatizaciju, danas postoji bliska interakcija između računala i korpusne lingvistike.

Ruski nacionalni korpus

Ovaj slučaj (skraćeno NKRYA) uključuje niz subcorpus, omogućujući korištenje resursa za razne zadatke.

Materijali u bazi podataka su podijeljeni NKRYA:

za publikacije u medijima „90-ih i 2000-ih, i domaćim i stranim;
snimanje govora;
aktsentologicheski označena tekstove (tj oznake stresa);
dijalekt govor;
pjesma;
Materijali sa sintaktičkim i drugim oznakama.

Informacijski sustav također uključuje Subcorpus s paralelnim prijevodima djela s ruskog na engleski, njemački, francuski i mnoge druge jezike (i obrnuto).

Također u bazi podataka postoji dio povijesnih tekstova, koji predstavlja pisani govor na ruskom u različitim razdobljima njegova razvoja. Tu je i tijelo trening, što može biti korisno za strane državljane u svladavanju ruski jezik.

Ruski nacionalni korpus obuhvaća 400 milijuna leksičkih jedinica, a na mnogo načina uoči značajnog dijela jezika Europe tijela.

planovi

Činjenica u korist priznavanja tog trenda je dostupnost obećava laboratorijske korpusne lingvistike u ruskim sveučilištima, kao i strano. Uz korištenje i istraživanje u okviru ove informacije i pretraživanja izvora podrazumijeva razvoj određenih područja u području visokih tehnologija, sustava pitanje-odgovoriti, ali je objašnjeno gore.

Daljnji razvoj korpusne lingvistike je predvidjeti na svim razinama, od tehničke i u smislu provedbe novih algoritama koji optimiziraju procese traženja i obradu podataka, osnaživanje računala, više RAM-a, a na potrošača, jer korisnici su sve više i više načina za korištenje ove vrste resursa u svakodnevnom život i rad.

u zaključku

U sredini prošlog stoljeća u 2017 kao daleku budućnost, gdje brodovi putuju kroz svemir i roboti učiniti sav posao za ljude. Zapravo, znanost je prepuna „bijele točke”, a što očajnički pokušava odgovoriti na pitanja čovječanstva stoljećima uznemirujuće. Pitanja funkcioniranja jezika ovdje zauzimaju počasno mjesto, a kabinet i računalna lingvistika može nam pomoći odgovoriti na njih.

Obrada velikih skupova podataka može otkriti obrasce, prethodno nedostupna, predvidjeti razvoj specifičnih značajki jezika pratiti nastanak riječi u gotovo realnom vremenu.

Na praktičnoj razini, globalna kućišta se može vidjeti, na primjer, kao potencijalni alat za procjenu javnu raspoloženje - Internet je stalno ažuriraju svakodnevno razni tekstovi stvorili stvarnih korisnika: ova komentare i mišljenja, i članaka, i mnoge druge oblike govora.

Osim toga, u suradnji s tijelima doprinosi razvoju istog hardvera, koji su uključeni u pronalaženje informacija, mi smo upoznati s uslugom „Google” ili „Yandex”, strojno prevođenje, elektronske rječnike.

Možemo sa sigurnošću tvrditi da je korpusne lingvistike čini tek prve korake, au skoroj budućnosti će procvasti.

Formacija, Fakulteti i sveučilišta

Što je korpusne lingvistike?

Povijest korpusne lingvistike

Što su kućište

primjena

Korištenje građevina

Proces stvaranja

Teškoće u stvaranju zgrada

morfološka označavanje

sintaktička komentarima

semantička označavanje

Korištenje pronalaženje sustava informacija

Ruski nacionalni korpus

planovi

u zaključku

Similar articles

Formacija

Formacija

Formacija

Formacija

Formacija

Formacija

Trending Now

Formacija

Zdravlje

Hrana i piće

Zdravlje

Formacija

Hrana i pića

Newest

Zdravlje

Dom i obitelj

Jednostavnost

Hrana i pića

Putovanje

Posao