Blogulblog's Blog

Bibliografie și linkuri utile

Bibliografie și linkuri utile

M-am gândit că „Bibliografie” și „Linkuri utile” pot conviețui pașnic sub acelaș acoperiș.

Este vorba exclusiv de linkuri solitare și nu de linkuri care apar în alte pagini deși, nu este chiar imposibil ca mai târziu, dacă am timp, să le adaug și pe ele. Cred că ordonarea alfabetică, pe de o parte, este imposibilă iar, pe de altă parte, este inutilă pentru că se caută cu căutătorul search.

Linkurile vor fi inserate în ordinea sosirii cu despărțitoare între ele; ele pot presupune câteva cuvinte explicative, laudative, exemplificative etc.

.

AVIZ IMPORTANT

PENTRU CEI CE URMĂRESC LINKUL XEROX!

La linkul http://www.xrce.xerox.com/Research-Development/Historical-projects/Linguistic-Demos se anunță, din păcate, următoarele:

All XRCE linguistic demos have moved to the new Open Xerox portal.

Iar Linguistic Tools se găsește acum la http://open.xerox.com/Services/fst-nlp-tools/Consume/181 unde, din păcate, limbile română și finlandeză nu mai apar. Sunt disponibile, deocamdată, doar cehă, engleză, franceză, germană, greacă, ungară, italiană, polonă și rusă. Trebuie urmărită evoluția.

 

.

Mai jos un exemplu mai vechi, atunci când linkul funcționa:

http://legacy.xrce.xerox.com/cgi-bin/mltt/demos/finnish.cgi

Programul analizează „rece” textul fără să-l traducă. Enunță toate posibilitățile „posibile” astfel pentru kieli dă patru forme posibile din care o formă de substantiv și trei de verb (kieliä). Întâmplător am găsit și abrevierile clickând Morphological categories

http://legacy.xrce.xerox.com/competencies/content-analysis/demos/doc/mor-fin-1.txt

CA : Language Tools

Input text:

Noteerataanko sekä puhe- että kirjoitettu kieli? Puhekieleen syntyy niin runsaasti uutta sanastoa, ettei mikään seula pysty joka sanaa laskemaan ja arkistoimaan. Suomenkielinen sosiaalinen vuorovaikutus eri puolilla maata ja maailmaa tuottaa jatkuvasti erilaisia sanoja jo murretaustankin takia. Lisäksi erilaisissa ryhmissä kehkeytyy slangia. Esimerkiksi armeijassa ja harrastusryhmissä on oma puhetapansa, puhumattakaan ammattikielistä. Aivan oma lukunsa ovat erityisalat, muun muassa lääketiede,

Result of Finnish Morphological Analysis :

Noteerataanko    noteerata  +V+PSS+IND+PR+IDF+CLT_KO

sekä  sekä  +CONJ+COORD

puhe- puhe  +N+SG+NOM#-

että  että  +CONJ+SUBRD

kirjoitettu      kirjoittaa +V+PSS+PC2+SG+NOM

kieli?     kieliä     +V+ACT+IMP+SG+PER2

kieli?     kieliä     +V+ACT+IND+PR+NEG

kieli?     kieliä     +V+ACT+IND+PT+SG+PER3

kieli?     kieli +N+SG+NOM

Puhekieleen      puhe  +N+SG+NOM#kieli+N+SG+ILL

syntyy     syntyä     +V+ACT+IND+PR+SG+PER3

niin  niin  +AD

niin  niin  +CONJ+COORD

niin  niin  +CONJ+SUBRD

runsaasti  runsaasti  +AD

runsaasti  runsas     +A+AD+DER_STI

uutta uusi  +A+SG+PTV

sanastoa,  sanasto    +N+SG+PTV

ettei ettei +V+ACT+IND+PRei+SG+PER3

mikään     mikä  +PRO+SG+NOM

seula seula +N+SG+NOM

pysty pysty +A+SG+NOM

pysty pystyä     +V+ACT+IMP+SG+PER2

pysty pystyä     +V+ACT+IND+PR+NEG

joka  joka  +PRO+SG+NOM

sanaa sana  +N+SG+PTV

laskemaan  laskea     +V+ACT+IF3+SG+ILL

ja    ja    +CONJ+COORD

arkistoimaan.    arkistoida +V+ACT+IF3+SG+ILL

Suomenkielinen   Suomi +PN+SG+GEN#kielinen+A+SG+NOM

sosiaalinen      sosiaalinen      +A+SG+NOM

vuorovaikutus    vuorovaikutus    +N+SG+NOM

vuorovaikutus    vuoro +N+SG+NOM#vaikutus+N+SG+NOM

eri   eri   +A

puolilla   puola +N+PL+ADE

puolilla   puoli +N+PL+ADE

maata maattaa    +V+ACT+IMP+SG+PER2

maata maattaa    +V+ACT+IND+PR+NEG

maata maata +V+ACT+IF1+NOM

maata maata +V+PSS+IND+PR+NEG

maata maa   +N+SG+PTV

ja    ja    +CONJ+COORD

maailmaa   maailma    +N+SG+PTV

maailmaa   maa   +N+SG+NOM#ilma+N+SG+PTV

tuottaa    tuottaa    +V+ACT+IF1+NOM

tuottaa    tuottaa    +V+ACT+IND+PR+SG+PER3

jatkuvasti jatkuvasti +AD

jatkuvasti jatkuva    +A+AD+DER_STI

jatkuvasti jatkua     +V+ACT+PC1+AD+DER_STI

erilaisia  erilainen  +A+PL+PTV

sanoja     sanoa +V+N+DER_AGE+SG+NOM

sanoja     sana  +N+PL+PTV

jo    jo    +AD

murretaustankin  murre +N+SG+NOM#tausta+N+SG+GEN+CLT_KIN

takia.     takia +PP+POST

Lisäksi    lisäksi    +AD

Lisäksi    lisäksi    +PP+POST

Lisäksi    lisä  +N+SG+TSL

erilaisissa      erilainen  +A+PL+INE

ryhmissä   ryhmä +N+PL+INE

kehkeytyy  kehkeytyä  +V+ACT+IND+PR+SG+PER3

slangia.   slangi     +N+SG+PTV

Esimerkiksi      esimerkiksi      +AD

Esimerkiksi      esimerkki  +N+SG+TSL

Esimerkiksi      esi   +A#merkki+N+SG+TSL

armeijassa armeija    +N+SG+INE

ja    ja    +CONJ+COORD

harrastusryhmissä     harrastus  +N+SG+NOM#ryhmä+N+PL+INE

on    olla  +V+ACT+IND+PR+SG+PER3

oma   oma   +A+SG+NOM

puhetapansa,     puhetapa   +N+PL+NOM+PSF3

puhetapansa,     puhetapa   +N+SG+GEN+PSF3

puhetapansa,     puhetapa   +N+SG+NOM+PSF3

puhetapansa,     puhe  +N+SG+NOM#tapa+N+PL+NOM+PSF3

puhetapansa,     puhe  +N+SG+NOM#tapa+N+SG+GEN+PSF3

puhetapansa,     puhe  +N+SG+NOM#tapa+N+SG+NOM+PSF3

puhumattakaan    puhua +V+ACT+IF3+SG+ABE+CLT_KAAN

ammattikielistä. ammatti    +N+SG+NOM#kielinen+A+SG+PTV

ammattikielistä. ammatti    +N+SG+NOM#kieli+N+PL+ELA

Aivan aivan +AD

oma   oma   +A+SG+NOM

lukunsa    luku  +N+PL+NOM+PSF3

lukunsa    luku  +N+SG+GEN+PSF3

lukunsa    luku  +N+SG+NOM+PSF3

ovat  olla  +V+ACT+IND+PR+PL+PER3

erityisalat,     erityinen  +A#ala+N+PL+NOM

muun  muu   +PRO+SG+GEN

muassa     muassa     +AD

lääketiede,      lääke +N+SG+NOM#tiede+N+SG+NOM

© 2009 XEROX CORPORATION. All rights reserved.

############################################################################

FINNISH MORHOLOGICAL ANLYSER
============================

Syntactic categories   N     30,106   noun                   talo
with number            A      7,770   adjective              iso
                       V      8,697   verb                   kirjoittaa
                       PN     3,517   proper noun            Lauri
                       AD     1,954   adverb                 usein
                       PP        75    kanssa                 kanssa
                       NR        49    number                 kahdeksan     
                       PRO       50    pronoun                eräs
                       CONJ      48    conjunction            ja
                       ITJR      89    interjection           hei
                       ABBR     868    abbreviation           usd

Number                 SG             singular               talo, talossa
                       PL             plural                 talot, taloissa

Case                   NOM            nominative             talo
                       GEN            genitive               talon
                       PTV            partitive              taloa
                       ESS            essive                 talona
                       TSL            translative            taloksi
                       INE            inessive               talossa
                       ELA            elative                talosta
                       ILL            illative               taloon
                       ADE            adessive               talolla
                       ABL            ablative               talolta
                       ALL            allative               talolle
                       ABE            abessive               talotta
                       INS            instructive            taloin
                       COM            comitative             taloineen
                       ACC            accusative             hänet

Possessive person      PSF1           1st possessive         taloni, talomme
                       PSF2           2nd possessive         talosi, talonne
                       PSF3           3rd possessive         talonsa

Possessive number      PSG            singular               taloni, talosi
                       PPL            plural                 talomme, talonne

Comparison             CPR            comparative            isompi
                       SPR            superlative            isoin

Diathesis              ACT            active                 kirjoitan
                       PSS            passive                kirjoitetaan

Mode                   IND            indicative             kirjoitan
                       IMP            imperative             kirjoita
                       CND            conditional            kirjoittaisin
                       PTN            potential              kirjoittanee

Tense                  PR             present                kirjoitan
                       PT             past                   kirjoitin

Person                 PER1           1st person             kirjoitan, kirjoitamme
                       PER2           2nd person             kirjoitat, kirjoitatte
                       PER3           3rd person             kirjoittaa, kirjoittavat
                       IDF            indefinite             kirjoitetaan
                       NEG            negation               kirjoita

Nominals               PC1            1st participle         kirjoittava
                       PC2            2nd participle         kirjoittanut

Infinitives            IF1            1st infinitive         kirjoittaa
                       IF2            2nd infinitive         kirjoittaessa
                       IF3            3rd infinitive         kirjoittamaan

Clitics                CLT_KO         clitic -ko/-kö         taloko, kyläkö
                       CLT_KINKO      clitic -kinko          talokinko, kyläkinkö
                       CLT_HAN        clitic -han/-hän               talohan, kylähän
                       CLT_KOHAN      clitic -kohan          talokohan, kyläköhän
                       CLT_KIN        clitic -kin            talokin
                       CLT_KAAN       clitic -kaan           talokaan, kyläkään
                       CLT_KAANKO     clitic -kaanko         talokaanko, kyläkäänkö
                       CLT_PA         clitic -pa/-pä         talopa, kyläpä
                       CLT_PAHAN      clitic -pahan          talopahan, kyläpähän

Compound               XXX (= #)      compound               kerrostalo
                       CMPD           compound               asuintalo

Derivations            DER_MAINEN     (of nominals)          talomainen
                       DER_MAISUUS    (of nominals)          talomaisuus
                       DER_LAINEN     (of nominals)          ranskalainen
                       DER_LAISUUS    (of nominals)          ranskalaisuus
                       DER_LLINEN     (of N)                 värillinen
                       DER_LLISUUS    (of N)                 värillisyys
                       DER_TON        (of N)                 väritön
                       DER_TTOMUUS    (of N)                 värittömyys
                       DER_STI        (of A)                 hienosti
                       DER_INEN       (of PC1)               kirjoittavainen
                       DER_ISUUS      (of PC1)               kirjoittavaisuus
                       DER_UUS        (of CPR/PC1)           isommuus, kirjoittavuus
                       DER_MAISILLAAN (of V)                 kirjoittamaisillaan
                       DER_AGE        (of V)                 kirjoittaja
                       DER_FEMAGE     (of V)                 kirjoittajatar
                       DER_AGE&INEN   (of V)                 kirjoittajainen
                       DER_AGE&ISUUS  (of V)                 kirjoittajaisuus
                       DER_AGE&UUS    (of V)                 kirjoittajuus
                       DER_MINEN      (of V)                 kirjoittaminen
                       DER_MATON      (of V)                 kirjoittamaton
                       DER_MATTOMUUS  (of V)                 kirjoittamattomuus
                       DER_NEISUUS    (of V)                 kirjoittaneisuus

NB Aici a fost doar un exemplu. Linkul se repetă, este primul pe lista linkurilor!

La pagina

http://www.xrce.xerox.com/Research-Development/Historical-projects/Linguistic-Demos/(language)/eng-GB

alte 13 limbi

Linguistic Demos

Language-specific tools (tokenization, analysis, desambiguation)

Arabic
Czech
Dutch
English
French
German
Greek
Hungarian
Italian
Polish
Portuguese
Russian
Spanish
Finnish

Language guesser

External demos using XRCE language tools

The ARTFL project

The Project for American and French Research on the Treasury of the French Language, University of Chicago uses Xerox’s finite-state morphology package.

.

AVIZ IMPORTANT!

La linkul http://www.xrce.xerox.com/Research-Development/Historical-projects/Linguistic-Demos se anunță următoarele:

All XRCE linguistic demos have moved to the new Open Xerox portal.

Iar Linguistic Tools se găsește acum la http://open.xerox.com/Services/fst-nlp-tools/Consume/181 unde, din păcate, limbile română și finlandeză nu mai apar. Sunt disponibile, deocamdată, doar cehă, engleză, franceză, germană, greacă, ungară, italiană, polonă și rusă.

Postat / syötetty 14.2.2010

Actualizat / päivitetty 3.9.2011

.

Creează gratuit un site web sau un blog la WordPress.com.

%d blogeri au apreciat: