Líonra Séimeantach na Gaeilge:
Sonraí

Kevin P. Scannell


Conas a úsáidtear an brabhsálaí 3T

Ar dtús, cuir focal nó frása isteach sa bhosca cuardaigh. Má tá níos mó ná roinn chainte amháin ag an bhfocal, fiafrófar díot ceann acu a roghnú. Go hiondúil, áfach, luchtófar feidhmchláirín Java go huathoibríoch san áit faoin bhosca chuardaigh, agus taispeánfar píosa beag den líonra ann, láraithe ar d'fhocal.

Seo iad na gníomhartha atá ar fáil sa bhrabhsálaí:

Tá gach nód uaine ina "mhol" — focal a léiríonn bunchiall sa líonra. Comhfhreagraíonn gach nód dearg le focal ortagrafach agus tá sé nasctha leis an mol uaine a thugann a bhunchiall (nó le níos mó ná mol amháin más focal athbhríoch é). Ceanglaíonn nascanna dearg-dearg focail chomhchiallacha, eagraithe i bhfáinne timpeall moil uaine. Is iad na nascanna uaine-uaine a sholáthraíonn saibhreas an líonra i ndáiríre — léiríonn siad gaolta séimeantacha níos ginearálta (ar nós hipearainmneacha agus hiopainmneacha) idir na bunchialla.

Mar shampla, má chuireann tú an focal meirbhe isteach sa bhosca cuardaigh, feicfidh tú rud éigin cosúil leis seo i do bhrabhsálaí:

LSG graph image, centered on 'meirbhe'

Ciallaíonn na trí mhol uaine go bhfuil trí bhunchiall ag an bhfocal meirbhe: brothall (B. "sultriness, humidity"), easpa aeir (B. "stuffiness"), agus lagachar (B. "weakness"). Má chliceálann tú an nód uaine brothall, feicfidh tú é seo:

LSG graph image, centered on 'brothall'

Anois, tá brothall sa lár agus tá cúig nód dhearg ina thimpeall, focail chomhchiallacha leis an mbunchiall seo. Ina dteannta seo, tá aon ghaol uaine-uaine ann, leis an bhfocal teaspach (B. "hot weather"). Má chliceáil tú an nód lagachar in ionad brothall, bheadh an scéal i bhfad níos casta:

LSG graph image, centered on 'lagachar'

I dtús báire, mar a tharlaíonn uaireanta, léiríonn an nód uaine lagachar dhá bhunchiall i ngar do na focail Bhéarla "weakness" agus "faintness". Feicfidh tú roinnt nód a fhreagraíonn don chéad bhunchiall (m.sh. lag), cinn eile níos gaire don dara ciall (meirfean), agus go leor eile a fhreagraíonn dóibh araon. Tugann sé seo go leor idirghníomhartha breá blasta sa líonra. Tabhair faoi deara go bhfuil nóid uaine ann freisin, ach seans go bhfuil siad níos deacra a thabhairt chun grinnis sa phictiúr thuas, gan a bheith in ann é a rothlú: marbhántacht (B. "lethargy"), soghontacht (B. "vulnerability"), míthathag (B. "flimsiness"), éalang (B. "a weak spot"), srl.


Conas a chruthaigh mé an líonra

Thosaigh an tionscadal seo i 2002 nuair a chruthaigh mé teasáras simplí Gaeilge, bunaithe ar Theasáras Roget atá ar fáil saor in aisce ó Project Gutenberg. Labhair mé ar an obair sin ag an gcomhdháil TALN 2003 i Batz-sur-Mer (sa Bhriotáin): Automatic thesaurus generation for minority languages: an Irish example. Ní raibh mé lánsásta le cáilíocht an teasárais a tháinig ón algartam sin, ós rud é gur tháinig sé in oidhreacht ar na fadhbanna go léir i Roget: struchtúr anásta nach bhfuil úsáideach le haghaidh bogearraí teangeolaíochta eile (liostaí fada d'fhocail ghar-chomhchiallacha bailithe le chéile i gcatagóirí ginearálta), easpa téarmaíochta nua-aimseartha (is ón eagrán 1913 é an leagan Roget atá saor in aisce), agus easpa gaolta séimeantacha cosúil le hipearainmneacha agus hiopainmneacha. Dá bhrí sin uile níor scaoil mé an teasáras amach go forleathan, le súil go mbeidh seans agam feabhas mór a chur air.

Mar a fheicfidh tú sa pháipéar TALN thuasluaite, ba léir dom go fiú ansin gurbh fhéidir formhór na bhfadhbanna seo a réiteach trí WordNet Princeton a úsáid in ionad Roget mar bhunsraith. B'fhíor an méid sin. Agus níos tábhachtaí fós, tá algartaim nua níos cumhachtaí agam anois lenar féidir aistriúcháin athbhríocha Béarla d'fhocail Ghaeilge a imdhealú agus chuir sé seo feabhas mór ar an scéal.

Is é croí na ceiste agus an líonra á chruthú ná gach focal Gaeilge a mhapáil go dtí a bhunchiall nó a bhunchialla Béarla i WordNet Princeton. Chun na críche seo, úsáidim na gearraistriúcháin Bhéarla atá i m'fhoclóir leictreonach Gaeilge. Focal amháin nó dhá fhocal atá i gceist go hiondúil, ar nós na n-aistriúchán atá i bhfoclóir Uí Dhónaill. Nuair nach bhfuil ach ciall amháin ag aistriúchán Béarla, níl aon fhadhb ann: Sainmhínítear stáplóir mar "stapler" agus níl ach ciall amháin ag an bhfocal seo i WordNet Princeton. Is iad na focail athbhríocha Bhéarla an chuid is deacra den obair; focail ar nós "bank", "ball", nó "flag".

Chun na focail athbhríocha a imdhealú, úsáidim "Corpas Comhthreomhar": bailiúchán mór de théacsanna Béarla in éineacht lena n-aistriúcháin Ghaeilge, abairtí ailínithe le habairtí. Mar shampla, abair go bhfuil suim agam san fhocal bruach, agus is "bank" ceann de na gearraistriúcháin de i m'fhoclóir. Bainim amach gach abairt Ghaeilge ina bhfuil an focal bruach (nó bhruach, mbruach, srl.) agus na habairtí Béarla atá ailínithe leo. Beidh an focal "bank" i gcuid de na habairtí Béarla, agus má tá an t-ádh orainn, is féidir an chiall cheart a roghnú bunaithe ar an gcomhthéacs breise atá ar fáil sna habairtí seo, le cabhair ó theicnící coitianta in imdhealú athbhríochta. Nílim roghnaíoch maidir leis na sonraí a théann isteach sa chorpas comhthreomhar sa chaoi go mbeidh dóthain faisnéise ann le haghaidh an phróisis seo. Mar shampla, cuirim na focail Ghaeilge ailínithe lena n-aistriúcháin Bhéarla san áireamh, cé nach abairtí iomlána iad. Go minic, is féidir an chiall cheart a bhaint amach ó na gearraistriúcháin seo amháin, rud is eol do chuile fhoclóirí le fada, Ó Dónaill et al san áireamh. Aimsítear gearraistriúcháin athbhríocha go minic ar fhocail (mar shampla feileastram mar "flag, iris") ach níl aon chontúirt ag roinnt leis seo nuair a thugtar an dá fhocal mar aistriúcháin le chéile. Nuair a chruthaigh mé an teasáras i 2003, ní raibh corpas mór comhthreomhar agam fós agus d'úsáid mé na gearraistriúcháin amháin le haghaidh imdealaithe.

Nóta tábhachtach teicniúil eile: ní mhapálaim focail Ghaeilge go dtí na bunchialla i WordNet Princeton go díreach. Is é cúis leis seo go ndéanann na foclóirithe Princeton idirdhealuithe an-chaolchúiseacha idir bríonna, go fiú idirdhealuithe nach féidir le daoine éirimiúla gan traenáil speisialta i bhfoclóireacht a dhéanamh. Agus chomh cinnte le sioc nach féidir le ríomhchlár dúr staitistiúil an jab céanna a dhéanamh go hiontaofa! Ina theannta sin, tá go leor bunchiall sa Ghaeilge nach bhfuil ar fáil i mBéarla (m.sh. freagraíonn "dearg" agus "rua" do bhunchiall amháin ("red") i WordNet Princeton) agus is iad seo na cialla is mian liom a chaomhnú go háirithe in acmhainn Lán-Ghaeilge ar nós LSG. Dá bhrí sin, chuir mé sraith nua isteach - "líonra inmheánach" - idir Gaeilge agus Béarla le mapáil i ngach treo. I ndáiríre, líonra Béarla atá ann, ach ceann atá dírithe ar riachtanais na Gaeilge. Bhain mé an-úsáid as foclóir Béarla-Gaeilge Tomás de Bhaldraithe chun é seo a chruthú; bhí mé in ann na cialla uimhrithe a thugann de Bhaldraithe faoi gach ceannfhocal a úsáid mar gharmheastachán tosaigh ar fhardal na gciall sa líonra inmheánach.


Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 3.0 Unported License.