Keskusteleva tekoäly: Automaattinen puheentunnistus
Yli 8k äänituntia kerätty, 800 tuntia litteroitu monikielistä puhetekniikkaa varten
esittely
Intia tarvitsi alustan, joka keskittyy monikielisten tietojoukkojen ja tekoälypohjaisten kieliteknologiaratkaisujen luomiseen voidakseen tarjota digitaalisia palveluita intialaisilla kielillä. Tämän aloitteen käynnistämiseksi The Client teki yhteistyötä Shaipin kanssa intialaisen kielen keräämiseksi ja litteroimiseksi monikielisten puhemallien rakentamiseksi.
tilavuus
Haasteet
Auttaakseen asiakasta intialaisia kieliä koskevan Speech Technology -puhesuunnitelman laatimisessa tiimin täytyi hankkia, segmentoida ja litteroida suuria määriä koulutusdataa tekoälymallin rakentamiseksi. Asiakkaan kriittiset vaatimukset olivat:
Tiedonkeruu
- Hanki 8000 tuntia harjoittelutietoja Intian syrjäisistä paikoista
- Toimittaja kerää spontaaneja puheita ikäryhmiltä 20-70 vuotta
- Varmista monipuolinen puhujayhdistelmä iän, sukupuolen, koulutuksen ja murteiden mukaan
- Jokaisen äänitallenteen on oltava vähintään 16 kHz ja 16 bittiä/näyte.
Tiedonsiirto
Noudata merkkejä ja erikoissymboleja, oikeinkirjoitusta ja kielioppia, isoja kirjaimia, lyhenteitä, supistuksia, yksittäisiä puhuttuja kirjaimia, numeroita, välimerkkejä, akronyymejä ja alkukirjaimia, hajanaista puhetta, ymmärtämätöntä puhetta, ei-kohdekieliä, ei-puhea koskevia yksityiskohtaisia transkriptioohjeita.
Laadun tarkistus ja palaute
Kaikki tallenteet läpikäyvät laadunarvioinnin ja validoinnin, vain validoidut puhetallenteet toimitetaan
Ratkaisu
Keskustelevan tekoälyn syvällinen ymmärryksemme ansiosta auttoimme asiakasta keräämään ja litteroimaan äänidataa asiantuntijakeräilijöiden, lingvistien ja annotaattoreiden kanssa rakentamaan laajaa äänidataa Intian syrjäisistä osista.
Shaipin työhön sisältyi, mutta ei rajoittunut, suurten äänenopetusdatamäärien hankkiminen, tietojen transkriptio ja vastaavien metatiedot sisältävien JSON-tiedostojen toimittaminen [sekä kaiuttimille että kopioijille. Jokaisen puhujan metatiedot sisältävät anonymisoidun kaiuttimen tunnuksen, laitteen tiedot, demografiset tiedot, kuten sukupuolen, iän ja koulutuksen, sekä heidän PIN-koodinsa, sosioekonomisen asemansa, puhutut kielet ja tietueen heidän elämänsä kestosta. Jokaisen transkriptoijan tiedot sisältävät anonymisoidun Transcriber-tunnuksen, puhujien kaltaiset demografiset tiedot, heidän transkriptiokokemuksensa keston ja perusteellisen erittelyn kielistä, joita he voivat lukea, kirjoittaa ja puhua.
Shaip keräsi 8000 tuntia äänidataa / spontaania puhetta mittakaavassa ja litteroitua 800 tuntia säilyttäen samalla halutut laatutasot, joita tarvitaan puhetekniikan kouluttamiseen monimutkaisiin projekteihin. Jokaiselta osallistujalta otettiin selkeä suostumuslomake. Kerätty / Spontaani puhe perustui yliopiston toimittamiin kuviin. of 3500 kuvia, 1000 ovat yleisiä ja 2500 liittyvät aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia alueita, kuten rautatieasemat, markkinat, sää ja paljon muuta.
Tiedonkeruu
Osavaltio | piirit | Äänitunnit | Transcription (H) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzafffarpur, Jamui | 2000 | 200 |
Uttarpradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Pohjois+Etelä Goa | 100 | 10 |
Karnataka | Dakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
Yhteensä | 8000 | 800 |
Yleiset ohjeet
muodostuu
- Ääni taajuudella 16 kHz, 16 bittiä/näyte.
- Yksi kanava.
- Raaka ääni ilman transkoodausta.
Tyyli
- Spontaani puhe.
- Yliopiston toimittamiin kuviin perustuvat lauseet. 3500 kuvasta 1000 on yleisluonteisia ja 2500 liittyy aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia alueita, kuten juna-asemia, markkinoita, säätä ja paljon muuta.
Tallennuksen tausta
- Äänitetty hiljaisessa, kaiuttomassa ympäristössä.
- Ei älypuhelimen häiriöitä (värinää tai ilmoituksia) tallennuksen aikana.
- Ei vääristymiä, kuten leikkausta tai kaukokenttäefektejä.
- Puhelimen tärinää ei voida hyväksyä; ulkoinen tärinä on siedettävää, jos ääni on selkeä.
Kaiutinmäärittely
- Ikähaarukka 20-70 vuotta tasapuolisella sukupuolijakaumalla piiriä kohti.
- Vähintään 400 äidinkielenään puhuvaa kussakin piirissä.
- Puhujien tulee käyttää kotikieltään/murretta.
- Suostumuslomake pakollinen kaikille osallistujille.
Laaduntarkastus ja kriittinen laadunvarmistus
Laadunvarmistusprosessi asettaa etusijalle äänitallenteiden ja transkriptioiden laadunvarmistuksen. Äänistandardit keskittyvät tarkkoihin hiljaisuuksiin, segmenttien kestoon, yhden kaiuttimen selkeyteen ja yksityiskohtaisiin metatietoihin, mukaan lukien ikä ja sosioekonominen tila. Transkriptiokriteerit korostavat tunnisteen tarkkuutta, sanan todenperäisyyttä ja oikeita segmentin tietoja. Hyväksymisvertailu määrää, että jos yli 20 % äänierästä ei täytä näitä standardeja, se hylätään. Alle 20 %:n eroavaisuuksissa vaaditaan korvaavat tallenteet samanlaisilla profiileilla.
Tiedonsiirto
Transkriptioohjeissa korostetaan tarkkuutta ja sanallista transkriptiota vain silloin, kun sanat ovat selkeitä ja ymmärrettäviä; epäselvät sanat on merkitty [epäselväksi] tai [epäkuulumattomaksi] ongelman perusteella. Pitkän äänen lauserajat on merkitty , eikä kielioppivirheiden oikaisu tai korjaaminen ole sallittua. Kirjaimellinen transkriptio kattaa virheet, slangit ja toistot, mutta jättää pois väärät aloitukset, täyteäänet ja änkytykset. Tausta- ja etualan kohinat transkriptoidaan kuvaavilla tunnisteilla, kun taas erisnimet, otsikot ja numerot noudattavat erityisiä transkriptiosääntöjä. Kaiutintunnisteita käytetään jokaisessa lauseessa, ja epätäydelliset lauseet on merkitty.
Projektin työnkulku
Työnkulku kuvaa äänen transkriptioprosessia. Se alkaa perehdyttämisestä ja osallistujien koulutuksesta. He tallentavat ääntä sovelluksella, joka on ladattu laadunvarmistusalustalle. Tämän äänen laatu tarkistetaan ja segmentoidaan automaattisesti. Tekniikkatiimi valmistelee sitten segmentit transkriptiota varten. Manuaalisen transkription jälkeen on laadunvarmistusvaihe. Transkriptiot toimitetaan asiakkaalle, ja jos ne hyväksytään, toimitus katsotaan suoritetuksi. Jos ei, muutokset tehdään asiakaspalautteen perusteella.
Tulos
Asiantuntevien lingvistien korkealaatuisen äänidatan avulla asiakkaamme voi tarkasti kouluttaa ja rakentaa monikielisiä puheentunnistusmalleja useilla Intian kielillä eri murteilla sovitussa ajassa. Puheentunnistusmalleja voidaan käyttää:
- Voita digitaalisen osallisuuden kielimuuri yhdistämällä kansalaiset aloitteisiin heidän omalla äidinkielellään.
- Edistää digitaalista hallintoa
- Katalyytti ekosysteemin muodostamiseksi palveluille ja tuotteille intialaisilla kielillä
- Enemmän lokalisoitua digitaalista sisältöä yleisen edun mukaisilla aloilla, erityisesti hallinnossa ja politiikassa
Olemme hämmästyneitä Shaipin asiantuntemuksesta keskustelun tekoälyn alalla. Tehtävä käsitellä 8000 tuntia äänidataa ja 800 tuntia transkriptiota 80 eri alueella oli vähintäänkin monumentaalinen. Juuri Shaipin syvä ymmärrys tämän alueen monimutkaisista yksityiskohdista ja vivahteista teki niin haastavan projektin onnistuneen toteuttamisen mahdolliseksi. Heidän kykynsä hallita ja navigoida saumattomasti tämän valtavan tietomäärän monimutkaisuudessa varmistaen samalla huippuluokan laadun on todella kiitettävää.