Brezhoneg er bed niverel : penaos ober gant ChatGPT hag an naouegezh artifisiel ?

Frammañ © OpenAI / Pobl Vreizh

An naouegezh artifisiel ha ChatGPT a vez klevet kalzik dioute, met n’eo ket aes atav kompren petra nevez a zo da gaout en ostilhoù-se, na petra sinifi an teknologiezhioù nevez-se evit ar brezhoneg ez-resis. Gwelomp ’ta an dra-se asambles.

Souezhet eo bet ar gazetennerien e « teufe » brezhoneg gant ChatGPT, an naouegezh artifisiel (intelligence artificielle pe IA e galleg) ijinet gant OpenAI, un embregerezh amerikan. Evit gwir n’eo ket ken souezhus-se. Ur skeudenn eo, tra ken, eus ar pezh a veze en e ziaz roadennoù eus 2021 : an danvez skrivet e brezhoneg war ar rouedad internet d’ar bloaz-se. Ne reomp ket ’met pouezañ aze plas ar yezh war internet. Peadra zo da laouenaat, pa soñjer ’zo diouzhomp ur gumuniezh yezh vihan a-walc’h.

Penaos e ya en-dro ?

Ar pezh a wel ChatGPT da gentañ-tout, o vont da glask en internet, zo dre-vras : an danvez yezh e Wikipedia e brezhoneg, ar c’hazetennoù brezhoneg enlinenn – Pobl Vreizh a embann ar pennad-mañ en o zouez –, ar geriadurioù enlinenn, danvez lec’hienn an Ofis publik ar brezhoneg (OPAB), bank roadennoù ar yezhadur enlinenn ARBRES, Facebook e brezhoneg, an nebeud pennadoù skolveuriek enlinenn hag al lec’hiennoù ha blogoù a garomp hag a anavezomp. Un dra a-bouez eo, disoc’h bloavezhioù labour ha buhez niverel ar gumuniezh yezh. Tout ar pezh a zo bet skrivet er yezh ha lakaet enlinenn en deus sikouret sevel ar model stadegel eus peseurt ger a vez da heul unan all peurliesañ e brezhoneg.

Souezhus-mat eo an disoc’h, ha nevez. Boemet omp gant se, ha fromet, evel ma vezomp gant pep sin omp-ni, brezhonegerien, a-boan achapet bev eus an 20vet kantved met bev c’hoazh.

Met ChatGPT n’eo ket ’met ur sin abred eus an dispac’h o tont. Peogwir ne « gomz » ket brezhoneg, na ne gompren. Na yezh ebet all, dav eo lâret. Ne oar ket lakaat kemm etre ur rener hag ur renadenn-tra-eeun. Evitañ eo ingal ar frazenn « Le chat mange la souris » ha « La souris mange le chat », panevet ’zo unan dioute ’vez kavet aliesoc’h. ’Mod-se emañ gant ChatGPT peogwir ne ra ket ’met gant ster hiniennel pep ger. Ar ster-se zo savet nemet a-ziwar ar gerioù all a vez kavet peurliesañ gant ar ger-se. Met n’en deus doare ebet da welout framm ur frazenn a-bezh.

Ar framm sintaksel, amañ emañ an dalc’h

Evitañ, « gouzout » ster ur ger a dalv gouzout gant peseurt gerioù all e vez kavet muioc’h pe nebeutoc’h alies. Ster ur frazenn a zo neuze ul linennañ eus ar sterioù-se. Evitañ, n’eus sintaks ebet a sav un darempred etre ar gerioù. Framm ar frazenn n’en deus ster ebet evitañ, ha ne zeu ster ebet a-ziwarnañ. Padal evidomp-ni, tud, hag evit pep den war an Douar patatez-mañ, ster ur frazenn a zo savet da gentañ penn gant ar framm sintaksel. Ar framm sintaksel an hini eo a aoz an darempred etre ster hiniennel pep ger en ur frazenn. Pa glev an dud un heuliadenn gerioù en o yezh, ec’h intentont un doare da renkañ ha da urzhiañ an darempredoù etre ar gerioù. Sintaks ar frazenn e vez graet eus ar renkadur-se. Ster ar frazenn a vez jedet a-ziwar ar framm-se, ha n’eo ket a-ziwar ar gerioù hiniennel war-eeun, pe un heuliadenn dioute.

Ar sintaks a zo kaoz omp gouest da gompren peseurt diferañs don a vez kavet etre « Le chat mange la souris » ha « La souris mange le chat ».

Ar sintaks a zo kaoz omp gouest da gompren pegen heñvel a ster eo « La souris mange le chat » ha « Le chat est mangé par la souris ». Ar sintaks c’hoazh a zo kaoz omp gouest da jediñ petra ’vez nac’het pa vez ur stumm nac’h (« Elle n’a pas dit qu’elle viendrait » vs « Elle a dit qu’elle ne viendrait pas »), pe c’hoazh petra a vez goulennet pa vez savet ur goulenn (« Qui tu dis qu’elle a pensé que la caméra a filmé ? »). Ha se ’zo kudennoù diaes evit ChatGPT.

Neuze, ChatGPT : un araokadenn pe ur giladenn ?

Daoust hag e sinifi neuze n’eo ket keloù mat ez int, a-benn ar fin, e vefe brezhoneg e-barzh ChatGPT ? Tamm ebet. Ur sin a-feson eo, met evit abegoù all.

Ar pezh a cheñch penn d’ar vazh, hag a vez diskouezet splann gant ChatGPT en un doare dudius, a zo tri zra ziazez. An tri zra-se a dalv un dispac’h evit dazont niverel tout ar yezhoù, en o zouez ar yezhoù bihan a gorpus evel ar brezhoneg. Aze dindan e tisplegin anezho unan a unan, a-raok diskouez ar spi a c’hellomp kaout, hag ar pezh a c’hell ober pep hini ac’hanomp evit diorren niverel ar brezhoneg.

1. Krog eo ar modeloù da c’hellout « gwelout » ar frazenn evel ouzhpenn ul linenn gerioù

Araokadenn vras an naouegezh artifisiel a zeu eus an dreuzfurmourien. Ganet int eus an enklaskoù renet diwar-benn an treterezh emgefre (evit sintezennoù brav met un tamm teknikel e saozneg, gwelout Huang 2023 ha Worlfram 2023). Ar modeloù kent – Recurrent Neural Networks (RNNs) ha Long Short-Term Memory (LSTM) – a ouie dielfennañ ar frazenn evel ul linenn gerioù kichen-ha-kichen, ha tra ken. Evit ar modeloù-se, degemer un heuliadenn gerioù a dalveze ebarzhiñ anezho er model en urzh ma arruent.

Urzh ar gerioù en ur frazenn a veze neuze ebarzhet nemet en un doare empleg, implisit. Urzh ar gerioù, ha stumm ar frazenn a zeu gant an urzh-mañ, ne oa ket tu da dapout krog ennañ war-lerc’h. Diseziz e chome neuze ar sintaks evel ur pesk en dour, met div nevezadenn bennañ o deus sachet ar modeloù er-maez anezhi.

Da gentañ penn eo bet krog an dreuzfurmadourien da lakaat ur stumm matematikel da urzh ar gerioù. En un doare pleustrek, pep ger en ur frazenn a vez roet un niverenn dezhañ : « Je suis contente. » = (Je 1) (suis 2) (contente 3) (. 4), pe « Laouen on-me. » = (Laouen 1) (on 2) (-me 3) (. 4). Treiñ eus ur yezh d’eben a zo neuze un oberatadenn a c’hell bezañ lakaet dindan stumm ur jedadenn ; er frazennig-mañ a-us : galleg 1, 2, 3, 4 = brezhoneg 3, 2, 1, 4.

« Dont a ra da vezañ posupl a-ziwar bremañ ober jedadennoù war urzh gerioù ur frazenn, da lâret eo war ar sintaks. Un araokadenn deknikel all (a vez graet multi-headed attention diouti) a skoazell d’an algoritm gwelout ar frazenn en he fezh, ha divizout pouez pep heuliad gerioù, o kemer e kont ar pezh a zeu just a-raok ha war-lerc’h. »

Ar yezhourien furmel a lâro deoc’h e vank c’hoazh ur stumm matematikel evit framm sintaksel ar frazennoù, met tostoc’h dioutañ ne oamp ket bet c’hoazh er modeloù matematikel. An araokadennoù-se war dachenn an treiñ an hini eo, asambles gant galloud jediñ nevez an algoritmoù a zo bet diorroet abaoe un dek vloaz ’zo bremañ war dachenn ar skeudennoù (GPU, Graphics Processing Units), en deus roet an disoc’hoù bamus a galite a welomp hiriv.

2. Ul liv gwir roet d’ar frazennoù a-drugarez d’ar « boelladenn gant toulloù »

Ar modeloù a zo aet war-raok war an emvoueta. An eil dispac’h a zeu eus doare boueta ar modeloù. Dek vloaz ’zo e veze ret d’an nen lavarout d’ur programm langaj e oa un anv eus ger-mañ-ger, petra e oa un anv, hag ouzhpenn da se e oa ret skrivañ ar pezh a dalveze a ger-mañ dindan ur stumm kod e c’helle merañ. Ul labour divent ! An dreuzfurmadourien a c’hell bremañ bezañ bouetaet war-eeun gant korpusoù brut, unyezhek. Gouzout a reomp memes bremañ penaos lakaet anezho da bleustriñ o-unan, ha dizoloiñ o-unan kategorienn gramadel ar gerioù.

« Penaos e reont ? Er skol vefe graet « poelladenn gant toulloù » eus an dra-se. E yezhoniezh ’vez graet « amprouiñ dre eskemm » eus ar boelladenn-se, met talvezout a ra memes tra. An amprouennoù-se zo simpl a-walc’h, ha trawalc’h int d’ar programm da lakaat liammoù etre ar gerioù a vez kavet en ul lec’h bennak er frazenn hag ar rener. An dra-se zo kaoz e vez ul liv gwir d’e frazennoù. »

Pleustriñ a c’hell an algoritm hep un den, o vezañ rannet e daou. Al lodenn gentañ a ginnig un destenn gwir leun a doulloù d’eben, ha gouest eo d’he difaziañ. Ne chom ket ’met reiñ dezho korpus evit c’hoari – ur bochad dioute, ha pa vefent unyezhek. Un internetad ma vez tu. Bamus eo ChatGPT pa c’hell produiñ e-unan frazennoù, pe kontañ fin un istor roet dezhañ. Se ’zo gras d’ar boelladenn gant toulloù da leuniañ. Pe zeu mat gantañ… e vez ledanaet an toulloù. Barzh fin ar gont e c’hell an algoritm « restaol » un destenn ha n’eo ket ’met un toull. Evit krouiñ frazennoù o-unan ha nevez, e klask a-zindan « restaol » danvez ha n’eus ket bet dioutañ james. Memes mod e ra an naouegezh artifisiel evit krouiñ skeudennoù – o tic’hradañ ur skeudenn e-lec’h toullañ un destenn. Galloudus-tre eo peogwir hon eus gwelet penaos un treuzfurmour a zo da gentañ penn ur benveg diorroet evit an treiñ. Ober un droidigezh a dalv ivez o vont eus ur stil d’un all er memes yezh, o cheñch al live yezh, ar stil lennegel, stankder an destenn, hag all. ’Mod-se eo e ra ChatGPT evit diverrañ un destenn, pe adskrivañ gant klotennoù. Nevez eo e c’hellfe ur programm krouiñ frazennoù e-unan, met un disoc’h gortozet eo d’ar boelladenn gant toulloù eo bet lakaet d’ober.

3. Gouest eo da skrivañ pennadoù kempoell

Gwelomp bremañ ar pezh a zo dispac’hel ha souezhus da vat. Ar modeloù a ziskouez elfennoù nevez n’int ket bet skrivet enno gant an dud. GPT2, gant 1,5 miliard parametr, zo dioutañ a-c’houde 2019. Gellout a rae genel, ma reseve urzhioù resis-mat, testennoù bihan heñvelgwir souezhus, kempoell mod pe vod enno o-unan. GPT3, kant gwech brasoc’h gant 175 miliard parametr, zo dioutañ a-c’houde 2020 hag a ziskouez un araokadenn bouezus. Gouest eo da skrivañ pennadoù kempoell (hum, enno o-unan, nemetken), tost heñvel eus ar mod en dez an den da skrivañ. Ar perzh nevez eo ar wech-mañ e oar heuliañ urzhioù simpl, hep ma vije bet krouet evit-se.

An dud a implij ar benveg yezhoniel-se n’o deus ket ezhomm deskiñ yezh informatek ebet, hag aes e vez dezho. Met ar perzh pouezus da gompren ez eo eo deuet ar varregezh-se dezhañ hec’h-unan, hep bezañ bet kodet gant den ebet. Prouiñ a ra en un doare pleustrek ar modeloù nevez a oar bremañ deskiñ emzalc’hioù nevez, o kinnig dezho muioc’h a zanvez pleustriñ ha setu tout. Ul lamm a galite eo : muioc’h eus ar memes tra a ro un dra a galite disheñvel.

Ezhomm zo korpusoù enlinenn

Hag ar brezhoneg, c’hwi lâro din ? Pelec’h emañ sac’het ? Pegoulz hon do binviji niverel evel er yezhoù all ? Aze emañ an deknologiezh, mallestoupen ! Evit plantañ tizh e-barzh an diorren niverel zo bremañ ur ger-stur : korpus ! Ret eo kaout korpusoù lies, lip a wirioù hag aes da gavout war internet.

Abaoe 2021 er gwir gall, o deus droad an dud a skiant da implij ar pezh a gavont enlinenn, met diaes e vez dezho rannañ an danvez etreze mar n’eus ket gwirioù digor lakaet splann warno. Da gaout a zo korpusoù notennet, da lâret eo korpusoù a zo pinvidikaet gant a bep seurt notennoù yezhoniezh (framm ar frazenn, troidigezh pep ger, troidigezh hollek, kategorienn pep ger, hag all). Ar re-se a servij evit sevel ur seurt kentel gramadel d’an algoritm da bleustriñ.

« Seurt korpusoù a gemer poan hag hir amzer da sevel, ha dav eo d’an dud a ra bezañ stummet un nebeud war ar yezhoniezh, met avañset brav eo al labour evit ar brezhoneg dija. Hini kentañ ’zo bet savet e 2018 gant klaskerien war an urzhiataerezh ha treterezh emgefre ar yezhoù : Vinit Ravishankar e skol-veur Oslo e Bro-Norvej ha Francis M. Tyers e skol-veur Bloomington en Indiana, Stadoù-Unanet. »

Unan all, a vo brasoc’h, a zo war sevel a-ziwar roadennoù ar wikiyezhadur ARBRES e labourva IKER (CNRS) hag e skol-veur Pariz-Nanterre/INALCO. Da gaout a zo ivez adkorpusoù (korpusoù paralel, da lâret eo korpusoù troet en ur yezh vras all, pe en ur skritur all, pe c’hoazh bizskrivet mard emaomp o komz eus un enrolladenn). Servij treiñ an Ofis en deus lakaet evel-se enlinenn ul lodenn eus an troidigezhioù int boaz d’ober. Pep testenn troet a c’hell servij.

Plantit ho prezhoneg pep lec’h war Internet

Erfin ez eus da gaout korpusoù unyezhek, a bep seurt stil, ar muiañ posupl dioute. Evit ur wech ez eo al liesseurted ar ger-stur da gaout, neuze brezel ebet da gaout – pep rannyezh, pep skrivadur a zo ezhomm dioute (an droerien emgefre a c’hell atav bezañ lakaet da reiñ peurunvan a-ziwar ar galleg).

« Pe e plantfec’h brezhoneg er foromoù, war Facebook, war Wikipedia pe war ho plog hiniennel, e vo adkavet gant an diorroerien hag ebarzhet er c’horpusoù. Mouezh pep hini a gont. Ha n’eo ket ur skeudenn an hini eo ! C’hoant ho peus kas SMSoù skrivet o komz a vouezh uhel ? Emgav war Common Voice evit enrolliñ ho mouezh ! »

Levrlennadurezh, evit mont pelloc’h

> Mélanie Jouitteau

Contributrice. Chercheuse en linguistique au CNRS, Mélanie Jouitteau, développe depuis 2009 l'Atlas rannyezhoù ar brezhoneg : sintaks (ARBRES), à la fois grande grammaire du breton et centre de ressources pour la recherche. Sous le nom de Mélanie Giotto, elle est aussi comédienne et écrit pour le théâtre. Elle est co-fondatrice de la compagnie Paritito en Finistère. [Lire ses articles]