Tapaustutkimus: Keskustelualan tekoäly

Yli 3 8 tuntia kerättyä, segmentoitua ja litteroitua dataa ASR:n rakentamiseksi kahdeksalla intialaisella kielellä

Lausuntojen kokoelma
Hallitus pyrkii tarjoamaan kansalaisilleen helpon pääsyn Internetiin ja digitaalisiin palveluihin heidän omalla äidinkielellään Bhashini-projektin kautta.

BHASHINI, Intian tekoälyyn perustuva kielenkäännösalusta, on tärkeä osa Digital India -aloitetta.

Bhashini-alusta, joka on suunniteltu tarjoamaan tekoälyn (AI) ja luonnollisen kielen käsittelyn (NLP) työkaluja pienille ja keskisuurille yrityksille, startup-yrityksille ja riippumattomille innovoijille, toimii julkisena resurssina. Sen tavoitteena on edistää digitaalista osallisuutta antamalla Intian kansalaisille mahdollisuuden olla vuorovaikutuksessa maan digitaalisten aloitteiden kanssa omalla äidinkielellään.

Lisäksi sen tavoitteena on laajentaa merkittävästi intialaisten kielten Internet-sisällön saatavuutta. Tämä on suunnattu erityisesti yleisen edun mukaisille aloille, kuten hallintoon ja politiikkaan, tieteeseen ja teknologiaan jne. Näin ollen tämä kannustaa kansalaisia ​​käyttämään Internetiä omalla kielellään ja edistää heidän aktiivista osallistumistaan.

Valjasta NLP mahdollistamaan osallistujien, kumppanuusyksiköiden ja kansalaisten monipuolinen ekosysteemi kielimuurien ylittämiseksi ja näin varmistaen digitaalisen osallisuuden ja voimaantumisen

Todellisen maailman ratkaisu

Lokalisoinnin voiman vapauttaminen datan avulla

Intia tarvitsi alustan, joka keskittyisi monikielisten tietojoukkojen ja tekoälypohjaisten kieliteknologiaratkaisujen luomiseen voidakseen tarjota digitaalisia palveluita intialaisilla kielillä. Aloitteen käynnistämiseksi Indian Institute of Technology, Madras (IIT Madras) teki yhteistyötä Shaipin kanssa intialaisen kielen tietojoukkojen keräämiseksi, segmentoimiseksi ja litteroimiseksi monikielisten puhemallien rakentamiseksi.

Haasteet

Auttaakseen asiakasta intialaisia ​​kieliä koskevan Speech Technology -puhesuunnitelman laatimisessa tiimin täytyi hankkia, segmentoida ja litteroida suuria määriä koulutusdataa tekoälymallin rakentamiseksi. Asiakkaan kriittiset vaatimukset olivat:

Tiedonkeruu

  • Hanki 3000 8 tuntia harjoitustietoa kahdeksalla intialaisella kielellä neljällä murteella kielellä.
  • Toimittaja kerää jokaisesta kielestä Extempore Speech ja
    Keskustelupuhe ikäryhmiltä 18-60 vuotta
  • Varmista monipuolinen yhdistelmä puhujia iän, sukupuolen, koulutuksen ja murteiden mukaan
  • Varmista erilaisten tallennusympäristöjen monipuolinen yhdistelmä teknisten tietojen mukaisesti.
  • Jokaisen äänitallenteen tulee olla vähintään 16 kHz, mutta mieluiten 44 kHz

Tietojen segmentointi

  • Luo 15 sekunnin puhesegmenttejä ja leimaa ääni millisekunteina kullekin tietylle puhujalle, äänityypille (puhe, melu, musiikki, melu), käännöksille, lausunnoille ja fraaseille keskustelussa
  • Luo jokainen segmentti kohdistetulle äänisignaalille 200–400 millisekunnin täytteellä alussa ja lopussa.
  • Kaikille segmenteille on täytettävä seuraavat objektit, esim. aloitusaika, lopetusaika, segmentin tunnus, äänenvoimakkuus, äänityyppi, kielikoodi, kaiuttimen tunnus jne.

Tiedonsiirto

  • Noudata merkkejä ja erikoissymboleja, oikeinkirjoitusta ja kielioppia, isoja kirjaimia, lyhenteitä, supistuksia, yksittäisiä puhuttuja kirjaimia, numeroita, välimerkkejä, lyhenteitä, suppeaa, puhetta, käsittämätöntä puhetta, ei-kohdekieliä, ei-puhekieliä jne. koskevia yksityiskohtaisia ​​transkriptioohjeita.

Laadun tarkistus ja palaute

  • Kaikki tallenteet läpikäyvät laadunarvioinnin ja validoinnin, vain validoitu puhe toimitetaan

Ratkaisu

Keskustelevan tekoälyn syvällinen ymmärryksemme ansiosta auttoimme asiakasta keräämään, segmentoimaan ja litteroimaan dataa asiantuntijakeräilijöiden, lingvistien ja annotaattorien ryhmän kanssa rakentamaan laajan äänidatajoukon kahdeksalla intialaisella kielellä.

Shaipin työhön sisältyi, mutta ei rajoittunut, hankkia suuria määriä ääniharjoitteludataa, segmentoida äänitallenteet useiksi, transkriptoida tiedot ja toimittaa vastaavat JSON-tiedostot, jotka sisälsivät metatiedot [SpeakerID, Age, Gender, Language, Murre,
Äidinkieli, pätevyys, ammatti, verkkotunnus, tiedostomuoto, taajuus, kanava, äänen tyyppi, kaiuttimien määrä, vieraiden kielten määrä, käytetyt asetukset, kapeakaistainen tai laajakaistainen ääni jne.]. 

Shaip keräsi 3000 tuntia äänidataa mittakaavassa säilyttäen samalla halutun laatutason, joka vaaditaan puhetekniikan kouluttamiseen monimutkaisiin projekteihin. Jokaiselta osallistujalta otettiin selkeä suostumuslomake.

1. Tiedonkeruu

2. Tietojen segmentointi

  • Kerätty äänidata jaettiin edelleen 15 sekunnin pituisiksi puhesegmenteiksi ja aikaleima millisekunteiksi kullekin tietylle puhujalle, äänityypille, käännöksille, lausunnoille ja fraaseille keskustelussa.
  • Loi kunkin segmentin kohdistetulle äänisignaalille 200–400 millisekuntia täytettävällä täytteellä äänisignaalin alussa ja lopussa.
  • Kaikissa segmenteissä seuraavat objektit olivat läsnä ja täytettyinä, esim. aloitusaika, lopetusaika, segmentin tunnus, äänenvoimakkuus (ääninen, normaali, hiljainen), ensisijainen äänityyppi (puhe, melu, musiikki, kohina, päällekkäisyys), kielikoodin kaiuttimen tunnus, transkriptio jne.

3. Laadun tarkistus ja palaute

  • Kaikkien tallenteiden laatu arvioitiin, ja vain validoidut puhetallenteet, joiden WER oli 90 % ja TER 90 %, toimitettiin
  • Seurattu laadun tarkistuslista:
       » Segmentin pituus enintään 15 sekuntia
       » Transkriptio tietyiltä alueilta, nimittäin: sää, erilaiset uutiset, terveys, maatalous, koulutus, työpaikat tai talous
       » Matala taustakohina
       » Ei äänileikettä pois päältä – Ei vääristymiä
       » Oikea äänen segmentointi transkriptiota varten

4. Tietojen transkriptio
Kaikki puhutut sanat, mukaan lukien epäröinnit, täytesanat, väärät aloitukset ja muut sanalliset tikit, taltioituivat tarkasti transkriptioon. Noudatimme myös yksityiskohtia isot ja pienet kirjaimet, oikeinkirjoitus, isot kirjaimet, lyhenteet, supistukset, numerot,
välimerkit, lyhenteet, hajanainen puhe, ei-puheäänet jne. Lisäksi keräämisen ja transkription työnkulku on seuraava:

Tulos

Asiantuntevien lingvistien korkealaatuisen äänidatan avulla Indian Institute of Technology – Madras pystyy kouluttamaan ja rakentamaan tarkasti monikielisiä puheentunnistusmalleja kahdeksalla intialaisella kielellä eri murteilla säädetyssä ajassa. Puheentunnistusmalleja voidaan käyttää:

  • Voita digitaalisen osallisuuden kielimuuri yhdistämällä kansalaiset aloitteisiin heidän omalla äidinkielellään.
  • Edistää digitaalista hallintoa
  • Katalyytti ekosysteemin muodostamiseksi palveluille ja tuotteille intialaisilla kielillä
  • Enemmän lokalisoitua digitaalista sisältöä yleisen edun mukaisilla aloilla, erityisesti hallinnossa ja politiikassa
Kultainen - 5 tähden

Olimme vaikuttuneita Shaipin asiantuntemuksesta keskustelun tekoälyavaruudessa. Heidän kokonaisvaltaisensa projektin toteuttamisessa tarvittavien koulutustietojen hankinnasta, segmentoinnista, transkriptiosta ja toimittamisesta asiantuntijalingvisteiltä kahdeksalla kielellä tiukkojen aikataulujen ja ohjeiden mukaisesti; säilyttäen silti hyväksyttävän laatutason."

Nopeuta keskusteluaiheisuutta
sovelluskehitys 100%

Esittelyssä olevat asiakkaat

Tiimien valtuuttaminen rakentamaan maailman johtavia tekoälyn tuotteita.