Käsinkirjoitustietojoukot

15 parasta avoimen lähdekoodin käsinkirjoitustietojoukkoa ML-mallien kouluttamiseen

Yritysmaailma muuttuu ilmiömäistä vauhtia, mutta tämä digitaalinen muutos ei ole läheskään niin laaja-alaista kuin haluaisimme sen olevan. Ihmiset käsittelevät edelleen fyysisiä asiakirjoja päivittäisessä toiminnassaan suurista yrityksistä pieniin yrityksiin. Vaikka käyttötiheys on vähentynyt huomattavasti, sitä ei ole kokonaan poistettu. Asiakirjojen digitaaliseen käyttöön skannaamisen aikaa vievän prosessin sijaan käytä uusinta OCR on aikaa säästävä ja tehokas.

Optisen merkintunnistuksen käytön kasvu johtuu ensisijaisesti automaattisten tunnistusjärjestelmien tuotannon lisääntymisestä. Tämän seurauksena OCR-tekniikan globaali markkina-arvo sidottu $ 8.93 miljardia Vuonna 2021 sen ennustetaan kasvavan CAGR:llä 15.4 prosenttia vuosina 2022–2030.

Mutta mitä OCR-tekniikka oikein on? Ja miksi se on pelin muuttaja yrityksille, jotka kehittävät tehokkaita tekoälymalleja? Otetaan selvää.

Mikä on OCR?

Vaihtoehtoisesti kutsutaan tekstintunnistukseksi, OCR tai optinen merkintunnistus on ohjelma, joka poimii tulostetut tai kirjoitetut tiedot skannatuista asiakirjoista, vain kuvallisia PDF-tiedostoja ja käsinkirjoitettuja muistiinpanoja koneellisesti luettavaan muotoon. Ohjelmisto ottaa kuvasta jokaisen kirjaimen ja yhdistää ne sanoiksi ja lauseiksi, mikä helpottaa asiakirjojen digitaalista käyttöä ja muokkaamista.

Mitä avoimen lähdekoodin tietojoukot ovat?

On useita paikkoja, joissa OCR-teknologialla on suuri potentiaali hyödyntää. Jotkut paikat ovat lentoasema, e-kirjojen julkaiseminen, mainokset, pankit ja toimitusketjujärjestelmät. Kuitenkin, jotta sovellukset palvelisivat tarkoitustaan, niitä on koulutettava hankekohtaisesti Optisen merkintunnistuksen tietojoukot.

Sovelluksen tehokkuus riippuu suurelta osin tietojoukon laadusta ja koulutusmenetelmistä. Kuitenkin löytää laadukkaita digitaalisia ja käsinkirjoituksen tietojoukot on sovelluksen kannalta vaikeaa. Joten monet yritykset käyttävät avoimen lähdekoodin tai vapaasti käytettäviä tietojoukkoja omistusoikeudellisten aineistojen sijaan.

Avoimen lähdekoodin tietojoukkojen edut ja haasteet

Yritysten on punnittava etuja ja haasteita keskenään ymmärtääkseen, onko niiden valittava vapaasti käytettävä data ML-sovelluksiinsa.

Hyödyt

  • Tiedot ovat helposti saatavilla. Tietojen saatavuuden ansiosta sovelluksen kehittämiskustannukset pienenevät merkittävästi.
  • Sovelluksen tietojen keräämiseen käytetty aika ja vaiva vähenevät merkittävästi, koska tietojoukko on helposti saatavilla.
  • On olemassa runsaasti yhteisöfoorumeita tai apuryhmiä, jotka auttavat oppimaan, mukauttamaan ja optimoimaan tietojoukkoa.
  • Yksi avoimen lähdekoodin tietojoukon suurimmista eduista on, että se ei aseta mukauttamisrajoituksia.
  •   Avoimen lähdekoodin data on suuren osan väestöstä saatavilla, mikä mahdollistaa analysoinnin ja innovaation ilman rahallisia esteitä.

Haasteet

  • Hanketta koskevia tietoja on vaikea saada. Lisäksi on mahdollista, että tiedot puuttuvat ja saatavilla olevia tietoja käytetään väärin.
  • Omistusoikeudellisten tietojen hankkiminen vie aikaa ja vaivaa ja on kallista
  • Vaikka tietojen hankkiminen saattaa olla helpompaa, tietämyksen ja analyysin kustannukset saattavat painaa alkuperäisen edun.
  • Myös muut kehittäjät käyttävät samoja tietoja sovellusten kehittämiseen.
  • Nämä tietojoukot ovat erittäin alttiita tietoturvaloukkauksille, yksityisyydelle ja suostumukselle.

15 parasta käsinkirjoitus- ja tekstintunnistustietojoukkoa koneoppimiseen

Open-source ocr datasets

Tekstintunnistussovellusten kehittämiseen on saatavilla monia avoimen lähdekoodin tietojoukkoja. Jotkut 15 parhaasta ovat

  1. ICDAR-tietojoukko

    International Conference for Document Analysis and Recognition -konferenssissa on 229 koulutus- ja 233 testikuvan arkisto merkintöineen. Se toimii vertailukohtana tekstintunnistuksen arvioinnissa.

  2. IIIT 5K-Word Dataset

    Googlen kuvahausta otettu IIIT 5K-word on kokoelma kylttien, mainostaulujen, rekisterikilpien ja julisteiden sanoja. Se sisältää 5K rajattua sanakuvaa, joten se on yksi laajimmista saatavilla olevista tekstintunnistustietokokoelmista.

  3. NIST-tietokanta

    NIST tai National Institute of Science tarjoaa yli 3600 käsinkirjoitusnäytteen ilmaisen kokoelman, jossa on yli 810,000 XNUMX merkkikuvaa

  4. MNIST-tietokanta

    NSIT:n Special Database 1:stä ja 3:sta johdettu MNIST-tietokanta on koottu kokoelma 60,000 10,000 käsinkirjoitetusta harjoitusjoukosta ja XNUMX XNUMX esimerkistä testijoukolle. Tämä avoimen lähdekoodin tietokanta auttaa kouluttamaan malleja tunnistamaan kuvioita samalla kun kuluu vähemmän aikaa esikäsittelyyn.

  5. Tekstintunnistus

    Avoimen lähdekoodin tietokanta, Text Detection -tietokanta sisältää noin 500 sisä- ja ulkokuvaa kylteistä, ovilevyistä, varoituskilveistä ja muista.

  6. Stanfordin OCR

    Stanfordin julkaisema tämä vapaasti käytettävä tietojoukko on MIT Spoken Language Systems Groupin käsinkirjoitettu sanakokoelma.

  7. DDI-100

    DDI-100 on kokoelma yli 6658 sivua asiakirjoja, joissa on useita geometrisia kuvioita ja vääristymiä. Lisäksi DDI-100:ssa on yli 99870 kuvaa, leimamaskia, tekstimaskia ja rajausruutua.

  8. RoadText-1K

    RoadText-1K on yksi suurimmista tietosarjoista, jotka auttavat kouluttamaan malleja tunnistamaan tekstiä videoissa. Se sisältää 1000 videoleikettä, joissa on rajauslaatikon tekstimerkintä ja tekstin transkriptio jokaisessa videokehyksessä.

  9. MSRA-TD500

    Sisältää 300 koulutusta ja 200 tekstikuvaa; MSRA-TD500 sisältää kiinan ja englannin kielen merkkejä ja se on merkitty lausetasolla.

  10. MJSynth Dataset

    Oxfordin yliopiston tarjoamassa sanatietojoukossa on lähes 9 miljoonaa synteettisesti luotua kuvaa, jotka kattavat yli 90 tuhatta englanninkielistä sanaa.

  11. Street View -teksti

    Tämä Google Street View -kuvista kerätty tietojoukko sisältää tekstintunnistuskuvia pääasiassa tauluista ja katutason kylteistä.

  12. Asiakirjatietokanta

    Asiakirjatietokanta on kokoelma 941 käsinkirjoitettua asiakirjaa, mukaan lukien taulukot, kaavat, piirustukset, kaaviot, luettelot ja paljon muuta, 189 kirjoittajalta.

  13. Matemaattiset lausekkeet

    Mathematics Expressions on tietokanta, joka sisältää 101 matemaattista symbolia ja 10,000 XNUMX lauseketta.

  14. Street View -talonumerot

    Tämä Google Street View'sta kerätty Street View House Numbers on tietokanta, joka sisältää 73257 katunumeron numeroa.

  15. Luonnonympäristö OCR

    Natural Environment OCR on tietojoukko, joka sisältää lähes 660 kuvaa maailmanlaajuisesti ja 5238 tekstihuomautusta.

Nämä olivat eräitä parhaista avoimen lähdekoodin tietojoukoista tekstintunnistussovelluksille tarkoitettujen ML-mallien koulutukseen. Yrityksesi ja sovellustarpeisiisi sopivan vaihtoehdon valitseminen voi viedä aikaa ja vaivaa. Sinun on kuitenkin kokeiltava näitä tietojoukkoja, ennen kuin päätät sopivasta.

Shaip – ​​korkea-arvoinen teknologiaratkaisujen toimittaja – auttaa sinua etenemään kohti luotettavaa ja tehokasta tekstintunnistussovellusta. Hyödynnämme teknistä kokemustamme luodaksemme mukautettavia, optimoituja ja tehokkaat OCR-koulutustietojoukot erilaisiin asiakasprojekteihin. Ymmärtääksesi täysin kykymme, ota meihin yhteyttä jo tänään.

Sosiaalinen osuus