Corpus paralelo

Corpus paraleloa (ikusi testu corpus) maila batera lerrokaturik dauden bi hizkuntz desberdinetako testu bik osatzen duten duten errekurtso linguistiko bat da, normalean, lerrokada, sekzio, orri, edota hitzeko.

Corpus paralelo motak

4 corpus paraleloak ezberdindu daitezke:

Kalitate txarreko itzulpenak dituzten, edota zehazki lerrokatuak ez dauden esaldi elebidunak dituen corpus paraleloa.

Corpus konparagarri bat itzulita ez dauden dokumentu elebidunetatik abiatuta egiten dira. Dokumentuak alineaturik daude.

Corpus cuasi-konparagarri batek alineaturik edo alineatu gabe dauden dokumentu heterogeneo ez paraleloek osatzen dute.

Corpus paralelo arraroenak dokumentu berari buruzko hainbat itzulpen dituztenak dira, gutxienez esaldi mailan alineaturik eta bi hizkuntza edo gehiagotan.

Euskara duten zenbait corpus paralelo

Dabilena Corpuseko euskara-gaztelania corpus elebiduna

Elhuyar Fundazioak garatutako PaCo2 tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 2021ean 15 milioi hitz zituene euskaraz eta 19 miloi espainieraz, 340 domeinutatik erauziak.[1]

Hizkuntzen arteko Corpusa (HAC)

Lau hizkuntzatara itzulitako 137 liburuk osatzen zuten HAC corpusa 2021ean. Itzulpen unitateak parekatuta bistaratzen dira, eta bilaketak edozein hizkuntzatan egin daitezke. Guztira 42,43 milioi testu-hitz zeuden, horrela banatuta: euuskaraz  8,64; espainieraz 11,31; frantsesez 11,11 eta ingelesez 11,53.[2]

Eroski Consumer Corpusa

Consumer Eroski aldizkariaren edukiak euskaraz, gaztelaniaz, galegoz edo katalanez.[3]

Euskal Klasikoen Corpusa (EKC)

2005ean abiatu zuen armiarma.eus-ek Klasikoen Gordailua, XX. mendea bitarteko testu klasiko ia guztien bilgunea bilakatzeko asmoz. Corpus honek XVI. mendean hasi eta 1975. urtera arteko 496 liburu jasotzen ditu, eta denera 11,9 milioi testu-hitzez osatuta dago. Lehenago OEH corpus zegoen (303 liburu eta 5,8 milioi testu-hitz), baina hori ez da inoiz modu publikoan kontsultagai egon. dena.[4]

Erreferentziak

  1. «dabilena - Elhuyar» dabilena.elhuyar.eus (Noiz kontsultatua: 2022-09-19).
  2. «Hizkuntzen arteko Corpusa (HAC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).
  3. Eroski-Consumer corpusa. Eroski.
  4. «Euskal Klasikoen Corpusa (EKC) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).

Ikus, gainera

  • Itzulpengintza automatiko
  • Hizkuntzaren prozesamendu
  • Testu corpus
  • Igor Leturia

Kanpo estekak

Autoritate kontrola
  • Wikimedia proiektuak
  • Wd Datuak: Q1346592
  • Wd Datuak: Q1346592