Dezagun gutxi, dezagun beti

Mayo 10, 2008

EREDUZKO PROSA GAUR CORPUSA

Archivado en: Joseba Abaitua, Littera — janirearenaza @ 4:58 pm

Ereduzko Prosa Gaur Corpusa EHUko Euskara Zerbitzuak sortutako lanabesa dugu. Corpus honetan, euskal idazle batzuen azken urteotako testuak biltzen dira, corpus konplexu bat eratzeko helburuarekin.

 

 

Corpusaren xehetasunetan sartzen bagara, esan dezakegu Corpusaren xehetasunak denera 25,1 milioi hitz dituela eta horien artean, 13, 1 milioi hitz liburuak hartzen dituztela eta bestetik, 12 milio hitz prentsak. Liburuen artean, 287 liburu daude 2000, eta 2006. urte bitartekoak eta egunkarien artean, Berria egunkaria da nagusi 10 milio hitzekin (2004- 2006 bitarteko epean) eta Herria astekaria bigarren posizioan 2 milioi hitzekin (2001-2005 bitarteko epean).

Argiago ikustearren, Corpusean datuak agertzen diren bezala jartzea komenigarria iruditzen zait:

Corpusaren xehetasunak

Denera: 25,1 milioi hitz

Liburuak

13,1 milioi hitz

2000-2006 bitarteko 287 liburu

Prentsa

12 milioi hitz

2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

2001-2005 bitarteko Herria astekaria (2 milioi hitz)

Azken eguneratzea:
2007-07-07

 

 

 

 

Bibliografia:

http://www.ehu.es/euskara-orria/euskara/ereduzkoa/

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA

Archivado en: Joseba Abaitua, Littera — janirearenaza @ 4:45 pm

Kurtso amaiera honetarako, proiektu bat egingo dugu Zientzia eta Teknologiaren Corpusean eta Ereduzko Prosa Gaur Egun Corpusean oinarriturik. Hasteko, lehenengo Corpusari buruzko sarrera artikulu bat egingo dugu, bere web orriadeko datuetan oinarriturik.

1. Zer da Zientzia eta Teknologiaren Corpusa?

“Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.”

2. ztC corpus-bertsioaren ezaugarri nagusiak ondokoak dira:

Epea:
1990-2002 (biak barne)
Eremuak:
Zientzia zehatzak
Materiaren eta energiaren zientziak
Lurraren zientziak
Biziaren zientziak
Teknologia
Orokorra
Bestelakoak
Generoak:
Oinarrizko hezkuntzako materiala
Goi-mailako liburua
Artikulu espezializatua
Dibulgazio-artikulua
Dibulgazio-liburua
Administrazio publikoko dokumentua
Egitura-etiketatzea:
TEI P4 (XML)
Automatikoa: testuaren egitura-ezaugarriak (atalburuak, atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak, irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak, hau da, letra-estiloa eta komatxo edo kakotxak)
Eskuz landua (gune orekatuko laginak): nabarmentze-ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen berezia…)
Aurreprozesamendu linguistikoa (gune orekatuko laginak):
Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar Hiztegian ez dauden eta corpusean atzeman diren maiztasun handiko lema espezializatuak)
Aldaeren normalizazioa (<reg> etiketa)
Akats ortotipografikoen zuzenketa (<corr> etiketa)
Etiketatze linguistikoa:
Erabilitako baliabide lexikalak: EDBL (http://ixa2.si.ehu.es/edbl/ )+ZT corpusaren lexikoi osagarria (Elhuyar Hiztegia+corpusaren aurreprozesamendu linguistikoan bildutako lexiko espezializatua)
Automatikoa:

  • lema eta kategoria
  • hitz anitzeko unitate ’seguruak’ eta marraz lotutako izen-elkarte diren lema konplexuak etiketatu dira, eta horien osagaien informazioa (lema eta kategoria) ere gorde da, horien araberako kontsultak egiteko aukera ere izateko
  • testu-hitz batek analisi bat baino gehiago dituenean (anbiguoa denean), desanbiguazio automatikoaren bidez analisi bat hobesten da, baina gainerako analisiak gorde egin dira
  • desanbiguazio automatikoa amaieran egin da, eskuz egindako desanbiguazio-lanetik ‘ikas’ dezan
Eskuz landua (gune orekatuko laginak):

  • desanbiguazioa: lema/kategoria mailako analisi bat baino gehiago ematen duten testu-formetarako analisi zuzena hautatu da
  • prozesamendu linguistikoan izandako akatsak zuzendu dira
  • aldaeren normalizazioa: EDBLn zehaztutako aldaera ez-estandarren agerraldiak aldaera estandarraren lemarekin etiketatu dira. EDBLn aldaeren estandartasuna ebazteko erabiltzen den iturria Euskaltzaindiaren Hiztegi Batua da
Tamaina:
Guztira: 7,6 milioi hitz (7.623.734)
Automatikoki landuak: 6 milioi hitz (5.989.976)
Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,6 milioi hitz (1.633.758)
Lema-kopurua:
Guztira: 136.792
Eskuz egiaztatuak: 69.921

 

 

Bibliografia:

http://www.ztcorpusa.net/aurkezpena.htm

BIBLIOGRAFIA AIPATZEKO MODU EGOKI ETA DESBERDINAK

Archivado en: Joseba Abaitua, Littera — janirearenaza @ 3:49 pm

 

Gaur egun, guztiok dakigunez, idatzizko lan bat egitea oso garrantzitsua da, baina are garrantzitsuagoa da bibliografia era egoi batean aipatzea gure lanaren amaieran. Horrela, artikulu honen bidez bibliografia aipatzeko modu egoki eta desberdinak ikusiko ditugu. Ezin dugu bibliografian modu berdinean aipatu liburu bat, edo artikulu batnahiz aldizkari bat; bakoitzak bere arauak ditu eta bibliografia aipatzeko pausoak desberdinak dira.

Ikus dezagun Duke Unibertsiteak bibliografia aipatzeko zer pausu jorratzen dituen:

- Egunkarietako artikuluak:

 * From a printed journal

* Articles with multiple authors

* From an online journal

* Full-text article from a database 

- Aldizkarietako artikuluak:

* From a printed magazine

* From an online magazine

* Full-text article from a database

- Liburuak:

* Book with a single author

* Book with two authors

* Book with three or more authors

* Electronic book

* Article within a book

* Encyclopedias and other multi-volume works 

- Aldizkariak:

* From a printed newspaper

* from an online newspaper

* Full-text articles from a database

- Beste material batzuk:

* Web page

* Online posting

* Email message

* Book review

* Government document

 

Ondorioz, taula hauen bitartez antzeman ahal izan dugu bibliografia era egoki batean aipazeko zer motatako idazkia den kontutan hartu behar dugula, eta ez erabili bibliografia era orokor batean.

 

 

 

Bibliografia:

http://library.duke.edu/research/citing/workscited/

Blog de WordPress.com.