El Projecte AINA i el Paraulògic

5 abr. 22 | La Notícia de la Setmana

La Generalitat, en col·laboració amb el Barcelona Supercomputing Center, continua avançant amb noves fases del Projecte AINA, que té per objectiu que màquines amb sistemes de reconeixement de veu admetin instruccions en català i responguin també en aquesta llengua. I si hi participem? El Grup Enciclopèdia ja ho ha fet aportant 500.000 paraules i expressions al projecte!

Si ets tutora o tutor…

Et proposem que treballis aquest repte amb els alumnes:

REPTE: PARTICIPEU EN EL PROJECTE AINA I JUGUEU AL PARAULÒGIC.

1. Investigueu com podeu participar en el projecte AINA.

Ja és a punt la primera fase del Projecte AINA, que consistia a introduir en un sistema d’intel·ligència artificial (AI) 95 milions de frases, formades amb un total de 1.770 milions de paraules. Ara s’està ampliant la base de dades de veus en català, que ha començat amb només 1.000 hores enregistrades. Per a fer-ho, es demanen gravacions de voluntaris i voluntàries de totes les edats i procedències. Durant aquesta setmana també es presenta el projecte a Perpinyà, València i Palma amb l’objectiu de sumar a la base de dades variants dialectals de la Catalunya Nord, les Illes i el País Valencià.

  • Sabeu quantes paraules té el català? I quantes paraules fa servir normalment una persona?
  • Per què creieu que el Projecte AINA necessita una base de 95 milions de frases? No podria funcionar amb moltes menys?

2. Investigueu com és la plataforma Common Voice de Mozilla:

En aquesta plataforma, que s’utilitza en el projecte AINA, podreu llegir i enregistrar un nombre il·limitat de frases, amb l’autorització i la supervisió de les vostres mares, pares o tutors.

 

  • Què passa quan s’activa l’opció “Parla”? I quan s’activa l’opció “Escolta”?
  • Per què creieu que el Projecte AINA demana que hi col·laborin persones de tot tipus?
  • Quins dispositius i programes coneixeu que utilitzin el reconeixement de veu?

3. Divertiu-vos una estona amb el Paraulògic, l’aplicació informàtica que juga amb el vocabulari:

  • Coneixeu el Paraulògic? És un joc de gran èxit que consisteix a formar paraules amb un grup de lletres que canvia cada dia. Jugueu-hi i veureu que difícil que és trobar la solució completa de cada repte!
  • Sou capaços de formar una frase amb sentit en la qual apareguin les 26 lletres de l’alfabet català?

Aquí en teniu un exemple: Quatre biòlegs kurds xiuxiuejaven per a no molestar les zebres, els nyus i les hienes que espiaven a la sabana africana botswanesa.

Notes per al docent:

1. Els diccionaris més complets de la llengua catalana, com el Diccionari català-valencià-balear (DCVB) i el Diccionari de la llengua catalana de l’Institut d’Estudis Catalans (DIEC), recullen en total unes 250.000 paraules. Però els diccionaris no contenen totes les paraules d’una llengua, perquè aquesta evoluciona i n’incorpora constantment de noves, de manera que es calcula que el català deu tenir al voltant de 300.000 paraules. En la vida quotidiana, s’ha calculat que se’n fan servir amb una freqüència mínima només unes 2.500!

AINA necessita tantes frases perquè les paraules no sempre tenen el mateix significat, que pot canviar segons el context. Com que es vol que els sistemes de reconeixement de veu siguin capaços de reconèixer instruccions, cal que la base de dades sigui tan extensa com es pugui.

2. A més de recollir el màxim de variacions dels significats de les paraules, el Projecte AINA s’enfronta a una altra dificultat: quan la forma com diferents persones pronuncien una mateixa paraula es converteix en informació digital (la que fan servir les màquines), els resultats no són exactament els mateixos. Com que les màquines, en principi, consideren que dos registres són diferents només que tinguin un petit component que no sigui exactament igual, per poder interactuar amb els éssers humans (que no processem la informació d’aquesta manera tan rigorosa), cal que se’ls ensenyi a identificar el que és comú a totes les pronúncies i les variacions que no han de tenir en compte.

3. Molts dispositius fan servir sistemes de reconeixement de veu més o menys avançats: ordinadors, mòbils, assistents domèstics com Siri o Alexa, etc. Aplicacions com les de Google tenen una opció per introduir text dictant-lo amb la veu, i es limiten a transcriure paraules al dictat; d’altres, com les dels assistents domèstics, han de ser capaces d’interpretar instruccions per a realitzar accions específiques (encendre o apagar un llum, per exemple).

Teniu suggeriments, dubtes, crítiques? Com heu resolt el repte? Si voleu contactar amb l’equip de “La Notícia de la Setmana”, escriviu-nos amb el títol “Comentaris sobre La Notícia de la Setmana” a aquesta adreça: comunicacio@enciclopedia.cat