Intian kaltaisessa kulttuurisesti monimuotoisessa ja kielellisesti rikkaassa maassa osallistavan tekoälyn rakentaminen alkaa edustavien ja laadukkaiden tietokokonaisuuksien keräämisestä. Se on visio takana Projekti Vaani– laajamittainen avoimen lähdekoodin aloite, jota johtaa ARTPARK, IISc Bengaluruja Google, jonka tavoitteena on antaa ääni jokaiselle intialaiselle kielelle ja murteelle.
Kunnianhimoinen tavoite? Keräämään Yli 150,000 XNUMX tuntia puhetta ja Yli 15,000 XNUMX tuntia transkriptioita alkaen 1 miljoonaa ihmistä poikki 773 piiriä Intiasta.
Yhtenä tämän kansallisen tehtävän tärkeimmistä toimittajista Shaip Sillä oli keskeinen rooli spontaanin puhedatan, transkription ja metatietojen keräämisessä – loi pohjan tasapuolisille puhetekniikoille, jotka todella edustavat todellista Intiaa.
Visio Projektin takana Vaani
Projekti Vaani on suunniteltu kuromaan umpeen tekoälyn osallisuutta luomalla suurin multimodaalinen, monikielinen, avoimen lähdekoodin tietojoukko Intiassa. Nämä tiedot ovat perustana kehitettäessä tarkkoja puheentunnistus-, käännös- ja generatiivisia tekoälyjärjestelmiä intialaisilla syntyperäisillä kielillä – joista monet ovat aliedustettuina globaaleissa teknisissä ekosysteemeissä.
Pitkän aikavälin visio on tehostaa vaikuttavia sovelluksia:
- Terveydenhuolto – Puhepohjainen telelääketiede
- Oppilaitokset – Kansankieliset oppimisalustat
- Hallinto – Keskusteluliittymät kansalaispalveluille
- Käytettävyys: – Äänityökalut eri kykyisille käyttäjille
- Katastrofivaste – Reaaliaikainen viestintä paikallisilla murteilla
Kuinka Shaip auttoi rakentamaan Intian suurimman avoimen lähdekoodin puhetietoaineiston Project Vaanille
Shaipille uskottiin kerääminen 8,000 tuntia spontaania puhetta ja 800 tuntia manuaalisesti vahvistettuja transkriptioita. Vastuumme käsitti kaiuttimien perehdytyksen, äänen talteenoton, metatietojen merkitsemisen, transkription koordinoinnin ja laadunvalvonnan.
8,000 tuntia spontaanista äänidatasta
Nauhoitukset alkaen yli 400 äidinkielenään puhuvaa piiriä kohti, edustavat erilaisia ikäryhmiä, sukupuolia ja murteita
80 piiriä, katettu
Kuvapohjainen kehotus varmistaa luonnollinen, kontekstuaalinen puhe
Tässä on se, mikä teki lähestymistavastamme ainutlaatuisen:
Piiritason monimuotoisuus
Hankimme tallenteita 80 alueelta eri osavaltioista, kuten Biharista, Uttar Pradeshista, Karnatakasta, Länsi-Bengalista ja Maharashtrasta. Jokainen piiri toimitti 100 tuntia äänidataa, mikä varmisti alueellisen tasapainon. Otimme mukaan äidinkielenään puhujat ja varmistimme alueellisten aksenttien ja murteiden edustuksen, jotka usein unohdetaan valtavirran tekoälytietosarjoissa.
Kielellinen ja väestöllinen edustus
Hankimme tallenteita 80 alueelta eri osavaltioista, kuten Biharista, Uttar Pradeshista, Karnatakasta, Länsi-Bengalista ja Maharashtrasta. Jokainen piiri toimitti 100 tuntia äänidataa, mikä varmisti alueellisen tasapainon. Otimme mukaan äidinkielenään puhujat ja varmistimme alueellisten aksenttien ja murteiden edustuksen, jotka usein unohdetaan valtavirran tekoälytietosarjoissa.
Kuvakehote
Spontaanin ja luonnollisen sanaston stimuloimiseksi osallistujille näytettiin 45–90 kuvaa istuntoa kohden ja heitä pyydettiin kuvailemaan niitä. Osallistujia kehotettiin käyttämään erilaisia kuvia – kulttuurisymboleista jokapäiväisiin esineisiin – saamaan aikaan luonnollisia, spontaaneja vastauksia äidinkielellään. Tämä varmisti, että tallenteet heijastivat todellista, kontekstuaalista puhetta, joka on välttämätöntä kehittyneiden NLP-järjestelmien koulutuksessa.
Korkealaatuiset transkriptiostandardit
Vain 10 % puhetiedoista transkriptoitiin, mikä vastaa 800 tuntia. Paikalliset lingvistit tekivät transkription 20–50 kilometrin säteellä puhujasta, mikä varmisti murteiden ja vivahteiden tuntemisen. Toisen kerroksen tarkistus varmisti <5 %:n sanavirhesuhteen (WER).
Tiukka laadunvarmistus
Äänitietojen oli täytettävä korkea palkki: ei taustamelua, kaikuja, puhelimen tärinää tai vääristymiä. Ääni tallennettiin hiljaisissa, kaiuttomissa ympäristöissä. Tiedostot tarkistettiin tarkasti, jotta ne vastasivat puheen selkeyttä, melutasoa, metatietojen tarkkuutta ja kaiuttimen vahvistusta koskevia ohjeita. Metatietojen merkinnän oli oltava tarkka kaikissa tiedostoissa, ja kaikki tallenteet tarkastettiin kaiuttimen ja sijainnin kohdistuksen suhteen.
Ratkaisimme haasteet
- Etälogistiikka – Tiimien johtaminen 80 piirissä
- Kaiuttimien monimuotoisuus – 32,000 XNUMX+ vahvistettua kaiutinta etäisissä paikoissa
- Kulttuuriherkkyys – Paikallisten tapojen ja murteiden kunnioittaminen
- Tietojen eheys – Laatu- ja vaatimustenmukaisuusvaatimusten täyttäminen
- Laadunvalvonta – useissa kielellisissä ja kulttuurisissa konteksteissa
Menestyksemme perustui huolelliseen suunnitteluun, teknologialähtöiseen validointiin ja kumppanuuksiin paikallisten tiimien kanssa, jotka ymmärsivät kunkin alueen kulttuuriset vivahteet.
Vaikutus ja sovellukset
Shaipin panos ei ole vain nopeuttanut Vaani-projektin etenemistä, vaan myös luonut perustan kattavalle tekoälylle Intiassa. Kuroitua puhetietojoukkoa käytetään jo tekoälymallien luomiseen ja hienosäätämiseen:
- Kansankieliset ääniavustajat
- Alueelliset käännöskoneet
- Helppokäyttöiset viestintävälineet näkövammaisille
- Tekoälypohjaiset edtech-alustat maaseudun opiskelijoille
- Maaseudun telelääketiede
- Äänipohjaiset kansalaispalvelut
- Reaaliaikainen käännös ja transkriptio
Yhteenveto
Project Vaani on rohkea askel kohti kattavaa, esteetöntä tekoälyä – ja Shaipilla on kunnia olla perustava rooli. Shaipin työ Project Vaani -projektissa vahvistaa sitoutumisemme rakentaa eettisiä, osallistavia tekoälyjärjestelmiä, joiden juuret ovat monimuotoisuus ja edustus. Olemme keränneet yli 8,000 800 tuntia puhetta ja litteroineet XNUMX tuntia, joten olemme ylpeitä saadessamme olla mukana yhdessä Intian visionäärisimmistä digitaalisen osallisuuden projekteista.
Projekti Vaani jatkaa kohti suurempaa tavoitettaan, yli 150,000 XNUMX tuntia dataa, olemme valmiita tukemaan tekoälyinnovaatioiden seuraavaa rajaa, joka puhuttelee jokaista intialaista.
Haluatko tehdä yhteistyötä kanssamme rakentaaksesi tekoälyn, joka ymmärtää todellisen maailman? www.shaip.com