Keskusteleva tekoäly: Automaattinen puheentunnistus

Yli 8k äänituntia kerätty, 800 tuntia litteroitu monikielistä puhetekniikkaa varten

Keskustelu ai

esittely

Intia tarvitsi alustan, joka keskittyy monikielisten tietojoukkojen ja tekoälypohjaisten kieliteknologiaratkaisujen luomiseen voidakseen tarjota digitaalisia palveluita intialaisilla kielillä. Tämän aloitteen käynnistämiseksi The Client teki yhteistyötä Shaipin kanssa intialaisen kielen keräämiseksi ja litteroimiseksi monikielisten puhemallien rakentamiseksi.

tilavuus

Kerätyt tunnit
10
Sivujen lukumäärä huomautettuna
10 +
Projektin kesto
< 1 kk

Haasteet

Auttaakseen asiakasta intialaisia ​​kieliä koskevan Speech Technology -puhesuunnitelman laatimisessa tiimin täytyi hankkia, segmentoida ja litteroida suuria määriä koulutusdataa tekoälymallin rakentamiseksi. Asiakkaan kriittiset vaatimukset olivat:

Tiedonkeruu

  • Hanki 8000 tuntia harjoittelutietoja Intian syrjäisistä paikoista
  • Toimittaja kerää spontaaneja puheita ikäryhmiltä 20-70 vuotta
  • Varmista monipuolinen puhujayhdistelmä iän, sukupuolen, koulutuksen ja murteiden mukaan
  • Jokaisen äänitallenteen on oltava vähintään 16 kHz ja 16 bittiä/näyte.
Tietojen keruu

Tiedonsiirto

Noudata merkkejä ja erikoissymboleja, oikeinkirjoitusta ja kielioppia, isoja kirjaimia, lyhenteitä, supistuksia, yksittäisiä puhuttuja kirjaimia, numeroita, välimerkkejä, akronyymejä ja alkukirjaimia, hajanaista puhetta, ymmärtämätöntä puhetta, ei-kohdekieliä, ei-puhea koskevia yksityiskohtaisia ​​transkriptioohjeita.

Tietojen transkriptio

Laadun tarkistus ja palaute

Kaikki tallenteet läpikäyvät laadunarvioinnin ja validoinnin, vain validoidut puhetallenteet toimitetaan

Ratkaisu

Keskustelevan tekoälyn syvällinen ymmärryksemme ansiosta auttoimme asiakasta keräämään ja litteroimaan äänidataa asiantuntijakeräilijöiden, lingvistien ja annotaattoreiden kanssa rakentamaan laajaa äänidataa Intian syrjäisistä osista.

Shaipin työhön sisältyi, mutta ei rajoittunut, suurten äänenopetusdatamäärien hankkiminen, tietojen transkriptio ja vastaavien metatiedot sisältävien JSON-tiedostojen toimittaminen [sekä kaiuttimille että kopioijille. Jokaisen puhujan metatiedot sisältävät anonymisoidun kaiuttimen tunnuksen, laitteen tiedot, demografiset tiedot, kuten sukupuolen, iän ja koulutuksen, sekä heidän PIN-koodinsa, sosioekonomisen asemansa, puhutut kielet ja tietueen heidän elämänsä kestosta. Jokaisen transkriptoijan tiedot sisältävät anonymisoidun Transcriber-tunnuksen, puhujien kaltaiset demografiset tiedot, heidän transkriptiokokemuksensa keston ja perusteellisen erittelyn kielistä, joita he voivat lukea, kirjoittaa ja puhua.

Shaip keräsi 8000 tuntia äänidataa / spontaania puhetta mittakaavassa ja litteroitua 800 tuntia säilyttäen samalla halutut laatutasot, joita tarvitaan puhetekniikan kouluttamiseen monimutkaisiin projekteihin. Jokaiselta osallistujalta otettiin selkeä suostumuslomake. Kerätty / Spontaani puhe perustui yliopiston toimittamiin kuviin. of 3500 kuvia, 1000 ovat yleisiä ja 2500 liittyvät aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia ​​alueita, kuten rautatieasemat, markkinat, sää ja paljon muuta.

Tiedonkeruu

OsavaltiopiiritÄänitunnitTranscription
(H)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzafffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaPohjois+Etelä Goa10010
KarnatakaDakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Yhteensä8000800

Yleiset ohjeet

muodostuu

    • Ääni taajuudella 16 kHz, 16 bittiä/näyte.
    • Yksi kanava.
    • Raaka ääni ilman transkoodausta.

Tyyli

    • Spontaani puhe.
    • Yliopiston toimittamiin kuviin perustuvat lauseet. 3500 kuvasta 1000 on yleisluonteisia ja 2500 liittyy aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia ​​alueita, kuten juna-asemia, markkinoita, säätä ja paljon muuta.

Tallennuksen tausta

    • Äänitetty hiljaisessa, kaiuttomassa ympäristössä.
    • Ei älypuhelimen häiriöitä (värinää tai ilmoituksia) tallennuksen aikana.
    • Ei vääristymiä, kuten leikkausta tai kaukokenttäefektejä.
    • Puhelimen tärinää ei voida hyväksyä; ulkoinen tärinä on siedettävää, jos ääni on selkeä.

Kaiutinmäärittely

    • Ikähaarukka 20-70 vuotta tasapuolisella sukupuolijakaumalla piiriä kohti.
    • Vähintään 400 äidinkielenään puhuvaa kussakin piirissä.
    • Puhujien tulee käyttää kotikieltään/murretta.
    • Suostumuslomake pakollinen kaikille osallistujille.


Laaduntarkastus ja kriittinen laadunvarmistus

Laadunvarmistusprosessi asettaa etusijalle äänitallenteiden ja transkriptioiden laadunvarmistuksen. Äänistandardit keskittyvät tarkkoihin hiljaisuuksiin, segmenttien kestoon, yhden kaiuttimen selkeyteen ja yksityiskohtaisiin metatietoihin, mukaan lukien ikä ja sosioekonominen tila. Transkriptiokriteerit korostavat tunnisteen tarkkuutta, sanan todenperäisyyttä ja oikeita segmentin tietoja. Hyväksymisvertailu määrää, että jos yli 20 % äänierästä ei täytä näitä standardeja, se hylätään. Alle 20 %:n eroavaisuuksissa vaaditaan korvaavat tallenteet samanlaisilla profiileilla.

Tiedonsiirto

Transkriptioohjeissa korostetaan tarkkuutta ja sanallista transkriptiota vain silloin, kun sanat ovat selkeitä ja ymmärrettäviä; epäselvät sanat on merkitty [epäselväksi] tai [epäkuulumattomaksi] ongelman perusteella. Pitkän äänen lauserajat on merkitty , eikä kielioppivirheiden oikaisu tai korjaaminen ole sallittua. Kirjaimellinen transkriptio kattaa virheet, slangit ja toistot, mutta jättää pois väärät aloitukset, täyteäänet ja änkytykset. Tausta- ja etualan kohinat transkriptoidaan kuvaavilla tunnisteilla, kun taas erisnimet, otsikot ja numerot noudattavat erityisiä transkriptiosääntöjä. Kaiutintunnisteita käytetään jokaisessa lauseessa, ja epätäydelliset lauseet on merkitty.

Projektin työnkulku

Työnkulku kuvaa äänen transkriptioprosessia. Se alkaa perehdyttämisestä ja osallistujien koulutuksesta. He tallentavat ääntä sovelluksella, joka on ladattu laadunvarmistusalustalle. Tämän äänen laatu tarkistetaan ja segmentoidaan automaattisesti. Tekniikkatiimi valmistelee sitten segmentit transkriptiota varten. Manuaalisen transkription jälkeen on laadunvarmistusvaihe. Transkriptiot toimitetaan asiakkaalle, ja jos ne hyväksytään, toimitus katsotaan suoritetuksi. Jos ei, muutokset tehdään asiakaspalautteen perusteella.

Tulos

Asiantuntevien lingvistien korkealaatuisen äänidatan avulla asiakkaamme voi tarkasti kouluttaa ja rakentaa monikielisiä puheentunnistusmalleja useilla Intian kielillä eri murteilla sovitussa ajassa. Puheentunnistusmalleja voidaan käyttää:

  • Voita digitaalisen osallisuuden kielimuuri yhdistämällä kansalaiset aloitteisiin heidän omalla äidinkielellään.
  • Edistää digitaalista hallintoa
  • Katalyytti ekosysteemin muodostamiseksi palveluille ja tuotteille intialaisilla kielillä
  • Enemmän lokalisoitua digitaalista sisältöä yleisen edun mukaisilla aloilla, erityisesti hallinnossa ja politiikassa

Olemme hämmästyneitä Shaipin asiantuntemuksesta keskustelun tekoälyn alalla. Tehtävä käsitellä 8000 tuntia äänidataa ja 800 tuntia transkriptiota 80 eri alueella oli vähintäänkin monumentaalinen. Juuri Shaipin syvä ymmärrys tämän alueen monimutkaisista yksityiskohdista ja vivahteista teki niin haastavan projektin onnistuneen toteuttamisen mahdolliseksi. Heidän kykynsä hallita ja navigoida saumattomasti tämän valtavan tietomäärän monimutkaisuudessa varmistaen samalla huippuluokan laadun on todella kiitettävää.

Kultainen - 5 tähden

Nopeuta keskusteluaiheisuutta
sovelluskehitys 100%