Ereduzko Prosa Gaur Corpusa EHUko Euskara Zerbitzuak sortutako lanabesa dugu. Corpus honetan, euskal idazle batzuen azken urteotako testuak biltzen dira, corpus konplexu bat eratzeko helburuarekin.

Corpusaren xehetasunetan sartzen bagara, esan dezakegu Corpusaren xehetasunak denera 25,1 milioi hitz dituela eta horien artean, 13, 1 milioi hitz liburuak hartzen dituztela eta bestetik, 12 milio hitz prentsak. Liburuen artean, 287 liburu daude 2000, eta 2006. urte bitartekoak eta egunkarien artean, Berria egunkaria da nagusi 10 milio hitzekin (2004- 2006 bitarteko epean) eta Herria astekaria bigarren posizioan 2 milioi hitzekin (2001-2005 bitarteko epean).
Argiago ikustearren, Corpusean datuak agertzen diren bezala jartzea komenigarria iruditzen zait:
|
Corpusaren xehetasunak
Denera: 25,1 milioi hitz
Liburuak
13,1 milioi hitz
2000-2006 bitarteko 287 liburu
Prentsa
12 milioi hitz
2004-2006 bitarteko Berria egunkaria (10 milioi hitz)
2001-2005 bitarteko Herria astekaria (2 milioi hitz)
Azken eguneratzea:
2007-07-07
|
|
Bibliografia:
http://www.ehu.es/euskara-orria/euskara/ereduzkoa/
Kurtso amaiera honetarako, proiektu bat egingo dugu Zientzia eta Teknologiaren Corpusean eta Ereduzko Prosa Gaur Egun Corpusean oinarriturik. Hasteko, lehenengo Corpusari buruzko sarrera artikulu bat egingo dugu, bere web orriadeko datuetan oinarriturik.
1. Zer da Zientzia eta Teknologiaren Corpusa?
“Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.”
2. ztC corpus-bertsioaren ezaugarri nagusiak ondokoak dira:
- Epea:
- 1990-2002 (biak barne)
- Eremuak:
- Zientzia zehatzak
- Materiaren eta energiaren zientziak
- Lurraren zientziak
- Biziaren zientziak
- Teknologia
- Orokorra
- Bestelakoak
- Generoak:
- Oinarrizko hezkuntzako materiala
- Goi-mailako liburua
- Artikulu espezializatua
- Dibulgazio-artikulua
- Dibulgazio-liburua
- Administrazio publikoko dokumentua
- Egitura-etiketatzea:
- TEI P4 (XML)
- Automatikoa: testuaren egitura-ezaugarriak (atalburuak, atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak, irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak, hau da, letra-estiloa eta komatxo edo kakotxak)
- Eskuz landua (gune orekatuko laginak): nabarmentze-ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen berezia…)
- Aurreprozesamendu linguistikoa (gune orekatuko laginak):
- Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar Hiztegian ez dauden eta corpusean atzeman diren maiztasun handiko lema espezializatuak)
- Aldaeren normalizazioa (
<reg> etiketa)
- Akats ortotipografikoen zuzenketa (
<corr> etiketa)
- Etiketatze linguistikoa:
- Erabilitako baliabide lexikalak: EDBL (http://ixa2.si.ehu.es/edbl/ )+ZT corpusaren lexikoi osagarria (Elhuyar Hiztegia+corpusaren aurreprozesamendu linguistikoan bildutako lexiko espezializatua)
- Automatikoa:
- lema eta kategoria
- hitz anitzeko unitate ’seguruak’ eta marraz lotutako izen-elkarte diren lema konplexuak etiketatu dira, eta horien osagaien informazioa (lema eta kategoria) ere gorde da, horien araberako kontsultak egiteko aukera ere izateko
- testu-hitz batek analisi bat baino gehiago dituenean (anbiguoa denean), desanbiguazio automatikoaren bidez analisi bat hobesten da, baina gainerako analisiak gorde egin dira
- desanbiguazio automatikoa amaieran egin da, eskuz egindako desanbiguazio-lanetik ‘ikas’ dezan
- Eskuz landua (gune orekatuko laginak):
- desanbiguazioa: lema/kategoria mailako analisi bat baino gehiago ematen duten testu-formetarako analisi zuzena hautatu da
- prozesamendu linguistikoan izandako akatsak zuzendu dira
- aldaeren normalizazioa: EDBLn zehaztutako aldaera ez-estandarren agerraldiak aldaera estandarraren lemarekin etiketatu dira. EDBLn aldaeren estandartasuna ebazteko erabiltzen den iturria Euskaltzaindiaren Hiztegi Batua da
- Tamaina:
- Guztira: 7,6 milioi hitz (7.623.734)
- Automatikoki landuak: 6 milioi hitz (5.989.976)
- Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,6 milioi hitz (1.633.758)
- Lema-kopurua:
- Guztira: 136.792
- Eskuz egiaztatuak: 69.921

Bibliografia:
http://www.ztcorpusa.net/aurkezpena.htm