Disse er de bedste gratis åbne datakilder, som alle kan bruge

Hvad er åbne data?

Enkelt sagt betyder Open Data den type data, der er åben for alle og enhver for adgang, ændring, genbrug og deling.

Open Data stammer fra forskellige “åbne bevægelser” som open source, open hardware, open government, open science osv.

Regeringer, uafhængige organisationer og agenturer er kommet frem for at åbne datakilderne for at skabe flere og flere åbne data til fri og nem adgang.

Hvorfor er åbne data vigtige?

Åbne data er vigtige, fordi verden er blevet mere og mere datadrevet. Men hvis der er begrænsninger for adgang og brug af data, bliver ideen om datadrevet forretning og styring ikke realiseret.

Derfor har åbne data sit eget unikke sted. Det kan give en bedre forståelse af de globale problemer og universelle problemer. Det kan give virksomhederne et stort løft. Det kan være en stor drivkraft for maskinlæring. Det kan hjælpe med at bekæmpe globale problemer som sygdom eller kriminalitet eller hungersnød. Åbne data kan styrke borgerne og dermed styrke demokratiet. Det kan strømline de processer og systemer, som samfundet og regeringerne har bygget. Det kan hjælpe med at transformere den måde, vi forstår og interagerer med verden på.

Så her er min liste over 15 fantastiske Open Data-kilder:

1. Verdensbankens åbne data

Som et lager af verdens mest omfattende data om, hvad der sker i forskellige lande over hele verden, er Verdensbankens åbne data en vital kilde til Open Data. Det giver også adgang til andre datasæt, som også er nævnt i datakataloget.

Verdensbankens åbne data er enorme, fordi de har 3000 datasæt og 14000 indikatorer, der omfatter mikrodata, tidsseriestatistik og geospatiale data.

Adgang til og at finde de ønskede data er også ret let. Alt hvad du skal gøre er at specificere indikatornavne, lande eller emner, og det åbner skattehuset for Open Data for dig. Det giver dig også mulighed for at downloade data i forskellige formater som CSV, Excel og XML.

Hvis du er journalist eller akademiker, vil du blive betaget af den række værktøjer, der er tilgængelige for dig. Du kan få adgang til analyse- og visualiseringsværktøjer, der kan styrke din forskning. Det kan give anledning til en dybere og bedre forståelse af globale problemer.

Du kan få adgang til API'en, som kan hjælpe dig med at oprette de datavisualiseringer, du har brug for, live kombinationer med andre datakilder og mange flere sådanne funktioner.

Derfor er det ikke overraskende, at Verdensbankens åbne data topper enhver liste over åbne datakilder!

2. WHO (Verdenssundhedsorganisationen) - Åbent datalager

WHO's Open Data-arkiv er, hvordan WHO holder styr på sundhedsspecifikke statistikker i sine 194 medlemsstater.

Datalageret holder dataene systematisk organiseret. Det kan tilgås efter forskellige behov. Uanset om det er dødelighed eller sygdomsbyrde, kan man få adgang til data klassificeret under 100 eller flere kategorier såsom millenniumudviklingsmålene (børns ernæring, børns sundhed, moder- og reproduktiv sundhed, immunisering, hiv / aids, tuberkulose, malaria, forsømte sygdomme, vand og sanitet), ikke-smitsomme sygdomme og risikofaktorer, epidemisk udsatte sygdomme, sundhedssystemer, miljømæssig sundhed, vold og skader, egenkapital mv.

For dine specifikke behov kan du gå gennem datasættene i henhold til temaer, kategori, indikator og land.

Det gode er, at det er muligt at downloade de data, du har brug for i Excel-format. Du kan også overvåge og analysere data ved hjælp af dens dataportal.

API'en til Verdenssundhedsorganisationens data og statistiske indhold er også tilgængelig.

3. Google Public Data Explorer

Google Public Data Explorer blev lanceret i 2010 og kan hjælpe dig med at udforske store mængder datasæt af offentlig interesse. Du kan visualisere og kommunikere dataene til dine respektive anvendelser.

Det gør data fra forskellige agenturer og kilder tilgængelige. For eksempel kan du få adgang til data fra Verdensbanken, US Bureau of Labor Statistics og US Bureau, OECD, IMF og andre.

Forskellige interessenter har adgang til disse data til forskellige formål. Uanset om du er studerende eller journalist, uanset om du er politiker eller akademiker, kan du udnytte dette værktøj til at skabe visualiseringer af offentlige data.

Du kan implementere forskellige måder at repræsentere data på, såsom linjegrafer, søjlediagrammer, kort og boblekort ved hjælp af Data Explorer.

Den bedste del er, at du finder disse visualiseringer ret dynamiske. Det betyder, at du vil se dem ændre sig over tid. Du kan ændre emner, fokusere på forskellige poster og ændre skalaen.

Det kan også let deles. Så snart du får diagrammet klar, kan du integrere det på din hjemmeside eller blog eller bare dele et link med dine venner.

4. Registrering af åbne data på AWS (RODA)

Dette er et lager, der indeholder offentlige datasæt. Det er data, der er tilgængelige fra AWS-ressourcer.

For så vidt angår RODA kan du finde og dele de data, der er offentligt tilgængelige.

I RODA kan du bruge nøgleord og tags til almindelige typer data såsom genomisk, satellitbilleder og transport for at søge i de data, du leder efter. Alt dette er muligt på en simpel webgrænseflade.

For hvert datasæt finder du detaljeside, brugseksempler, licensoplysninger og tutorials eller applikationer, der bruger disse data.

Ved at bruge en bred vifte af beregnings- og dataanalyseprodukter kan du analysere de åbne data og opbygge de tjenester, du ønsker.

Mens de data, du får adgang til, er tilgængelige via AWS-ressourcer, skal du huske på, at de ikke leveres af AWS. Disse data tilhører forskellige agenturer, offentlige organisationer, forskere, virksomheder og enkeltpersoner.

5. Den Europæiske Unions portal for åbne data

Du kan få adgang til alle åbne data, som EU-institutioner, agenturer og andre organisationer offentliggør på en enkelt platform, nemlig Den Europæiske Unions portal for åbne data.

EU's portal for åbne data er hjemsted for vitale åbne data vedrørende EU-politikområder. Disse politiske domæner inkluderer økonomi, beskæftigelse, videnskab, miljø og uddannelse.

Cirka 70 EU-institutioner, organisationer eller afdelinger såsom Eurostat, Det Europæiske Miljøagentur, Det Fælles Forskningscenter og andre generaldirektorater fra Europa-Kommissionen og EU-agenturer har offentliggjort deres datasæt og givet adgang. Disse datasæt har krydset antallet af 11700 indtil dato.

Portalen giver nem adgang. Du kan let søge, udforske, linke, downloade og genbruge dataene gennem et katalog med almindelige metadata. Du kan gøre det til dine specifikke formål. Det kan være kommercielle eller ikke-kommercielle formål.

Du kan søge i metadatakataloget via en interaktiv søgemaskine (fanen Data) og SPARQL-forespørgsler (fanen Linkede data).

Ved at gøre brug af dette katalog kan du få adgang til de data, der er gemt på de forskellige hjemmesider for EU-institutioner, agenturer og organisationer.

6. FiveThirtyEight

Det er et fantastisk sted til datadrevet journalistik og historiefortælling.

Det giver sine forskellige datakilder til en række sektorer som politik, sport, videnskab, økonomi osv. Du kan også downloade dataene.

Når du får adgang til dataene, vil du støde på en kort forklaring vedrørende hvert datasæt med hensyn til dets kilde. Du får også at vide, hvad det står for, og hvordan du bruger det.

For at gøre disse data brugervenlige leverer de datasæt i så enkle, ikke-proprietære formater som CSV-filer som muligt. Det er overflødigt at sige, at disse formater let kan tilgås og behandles af mennesker såvel som maskiner.

Ved hjælp af disse datasæt kan du oprette historier og visualiseringer efter dine egne krav og præferencer.

7. US Census Bureau

US Census Bureau er den største statistiske agentur for den føderale regering. Det gemmer og giver pålidelige fakta og data vedrørende mennesker, steder og økonomi i Amerika.

Census Bureau anser sin ædle mission om at udvide sine tjenester som den mest pålidelige udbyder af kvalitetsdata.

Uanset om det er en føderal, statlig, lokal eller stammestyring, bruger alle dem folketællingsdata til en række formål. Disse regeringer bruger disse data til at bestemme placeringen af ​​nye boliger og offentlige faciliteter. De gør også brug af det på tidspunktet for undersøgelsen af ​​de demografiske egenskaber ved samfund, stater og USA.

Disse data bruges også til planlægning af transportsystemer og veje. Når det kommer til beslutning om kvoter og oprettelse af politi- og brandgrænser, er disse data nyttige. Når regeringer opretter lokaliserede områder med valg, skoler, værktøjer osv., Bruger de disse data. Det er en praksis at samle befolkningsoplysninger en gang hvert årti, og disse data er ret nyttige til at opnå det samme.

Der er forskellige værktøjer såsom American Fact Finder, Census Data Explorer og Quick Facts, som er nyttige, hvis du vil søge, tilpasse og visualisere data.

For eksempel indeholder Quick Facts alene statistikker for alle stater, amter, byer og endda byer med en befolkning på 5000 eller mere.

På samme måde kan American Fact Finder hjælpe dig med at finde populære fakta som befolkning, indkomst osv. Det giver information, der ofte anmodes om.

Den gode ting er, at du kan søge, interagere med dataene, lære mere om populære statistikker og se de relaterede diagrammer gennem Census Data Explorer. Desuden kan du også bruge det visuelle værktøj til at tilpasse data på en interaktiv kortoplevelse.

8. Data.gov

Data.gov er skattehuset for amerikanske regerings åbne data. Det var først for nylig, at beslutningen blev taget om at gøre alle regeringsdata tilgængelige gratis.

Da den blev lanceret, var der kun 47. Der er nu 180.000 datasæt.

Hvorfor Data.gov er en stor ressource, er fordi du kan finde data, værktøjer og ressourcer, som du kan anvende til en række forskellige formål. Du kan udføre din forskning, udvikle dine web- og mobilapplikationer og endda designe datavisualiseringer.

Alt hvad du skal gøre er at indtaste nøgleord i søgefeltet og gennemse typer, tags, formater, grupper, organisationstyper, organisationer og kategorier. Dette letter let adgang til data eller datasæt, som du har brug for.

Data.gov følger projektets åbne dataskema - et sæt nødvendige felter (titel, beskrivelse, tags, sidste opdatering, udgiver, kontaktnavn osv.) For hvert datasæt, der vises på Data.gov.

9. DBpedia

Som du ved, er Wikipedia en god informationskilde. DBpedia sigter mod at få struktureret indhold fra de værdifulde oplysninger, som Wikipedia oprettede.

Med DBpedia kan du semantisk søge og udforske relationer og egenskaber ved Wikipedia-ressourcen. Dette inkluderer også links til andre relaterede datasæt.

Der er omkring 4,58 millioner enheder i DBpedia-datasættet. 4,22 millioner er klassificeret i ontologi, inklusive 1.445.000 personer, 735.000 steder, 123.000 musikalbum, 87.000 film, 19.000 videospil, 241.000 organisationer, 251.000 arter og 6.000 sygdomme.

Der er etiketter og abstrakter for disse enheder på omkring 125 sprog. Der er 25,2 millioner links til billeder. Der er 29,8 millioner links til eksterne websider.

Alt hvad du skal gøre for at bruge DBpedia er at skrive SPARQL-forespørgsler mod slutpunkt eller ved at downloade deres dumps.

DBpedia har været til fordel for adskillige virksomheder, såsom Apple (via Siri), Google (via Freebase og Google Knowledge Graph) og IBM (via Watson), og især deres respektive prestigefyldte projekter forbundet med kunstig intelligens.

10. freeCodeCamp Open Data

Det er et open source-samfund. Hvorfor det betyder noget er, fordi det giver dig mulighed for at kode, oprette pro bono-projekter efter nonprofitorganisationer og få fat i et job som udvikler.

For at få dette til at gøre, stiller freeCodeCamp.org-samfundet enorme mængder data til rådighed hver måned. De har gjort det til åbne data.

Du finder en række ting i dette arkiv. Du kan finde datasæt, analyse af det samme og endda demoer af projekter baseret på freeCodeCamp-data. Du kan også finde links til eksterne projekter, der involverer freeCodeCamp-data.

Det kan hjælpe dig med en mangfoldighed af projekter og opgaver, som du måske har i tankerne. Uanset om det er webanalyse, social medieanalyse, socialt netværk analyse, uddannelsesanalyse, datavisualisering, datadrevet webudvikling eller bots, kan de data, der tilbydes af dette samfund ekstremt nyttige og effektive.

11. Yelp Åbne datasæt

Yelp-datasættet er grundlæggende en delmængde af intet andet end vores egne virksomheder, anmeldelser og brugerdata til brug i personlige, uddannelsesmæssige og akademiske sysler.

Der er 5.996.996 anmeldelser, 188.593 virksomheder, 280.991 billeder og 10 storbyområder inkluderet i Yelp åbne datasæt.

Du kan bruge dem til forskellige formål. Da de er tilgængelige som JSON-filer, kan du bruge dem til at lære eleverne om databaser. Du kan bruge dem til at lære NLP eller til eksempler på produktionsdata, mens du forstår, hvordan du designer mobilapps.

I dette datasæt finder du hver fil sammensat af en enkelt objekttype, et JSON-objekt pr. Linje.

12. UNICEF-datasæt

Da UNICEF beskæftiger sig med en lang række kritiske spørgsmål, har den samlet relevante data om uddannelse, børnearbejde, handicap, børnedødelighed, mødredødelighed, vand og sanitet, lav fødselsvægt, fødselspleje, lungebetændelse, malaria, jodmangel lidelse, kvindelig kønslemlæstelse / opskæring og unge.

UNICEFs åbne datasæt offentliggjort i IATI-registreringsdatabasen: //www.iatiregistry.org/publisher/unicef ​​er udvundet direkte fra UNICEFs operativsystem (VISION) og andre datasystemer, og det afspejler input fra de enkelte UNICEF-kontorer.

Det gode er, at der er en regelmæssig opdatering, når det kommer til disse datasæt. Hver måned opdateres dataene for at gøre dem mere omfattende, pålidelige og nøjagtige.

Du kan frit og let få adgang til disse data. For at gøre det kan du downloade disse data i CSV-format. Du kan også få vist eksempler på data, før du downloader dem.

Mens nogen kan udforske og visualisere UNICEFs datasæt, er der tre hovedudgivere:

UNICEFs AID TRANSPARENCY PORTAL: Du har langt lettere adgang til datasættene, hvis du bruger denne portal. Den indeholder også detaljer for hvert land, som UNICEF arbejder i.

Udgiver d-portal: Det er i øjeblikket i BETA. Med denne portal kan du udforske IATI-data.

Du kan søge i oplysningerne relateret til udviklingsaktiviteter, budgetter osv. Du kan udforske disse oplysninger landsmæssigt.

Forlagets dataplatform: På denne platform kan du nemt få adgang til statistikker, diagrammer og metrics på data, der er adgang til via IATI-registreringsdatabasen. Hvis du klikker på overskrifterne, kan du også sortere mange af de tabeller, du ser på platformen. Du finder også mange af datasættene på platformene i maskinlæsbart JSON-format.

13. Kaggle

Kaggle er fantastisk, fordi det fremmer brugen af ​​forskellige datasætpublikationsformater. Imidlertid er det bedre, at det stærkt anbefaler, at datasættets udgivere deler deres data i et tilgængeligt, ikke-proprietært format.

Platformen understøtter åbne og tilgængelige dataformater. Det er vigtigt ikke kun for adgang, men også for hvad du vil gøre med disse data. Derfor definerer Kaggle datasæt tydeligt de filformater, der anbefales under deling af data.

Det unikke ved Kaggle datasæt er, at det ikke kun er et datalager. Hvert datasæt står for et samfund, der giver dig mulighed for at diskutere data, finde ud af offentlige koder og teknikker og konceptualisere dine egne projekter i kerner.

CSV, JSON, SQLite, Archive, Big Query osv. Er filtyper, som Kaggle understøtter. Du kan finde en række ressourcer for at begynde at arbejde på dit open data-projekt.

Den bedste del er, at Kaggle giver dig mulighed for at offentliggøre og dele datasæt privat eller offentligt.

14. LODUM

Det er Open Data-initiativet fra University of Münster. Under dette initiativ er det muligt for enhver at få adgang til offentlig information om universitetet i maskinlæsbare formater. Du kan let få adgang til og genbruge det efter dine behov.

Åbne data om videnskabelige artefakter og kodet som sammenkædede data gøres tilgængelige under dette projekt.

Ved hjælp af sammenkædede data er det muligt at dele og bruge data, ontologier og forskellige metadatastandarder. Det forventes faktisk, at det vil være den accepterede standard for levering af metadata og selve dataene på Internettet.

LODUM-teamet har co-initieret LinkedUniversities.org og LinkedScience.org.

Du kan bruge SPARQL-editor eller SPARQL-pakke med R til at analysere data.

SPARQL-pakke gør det muligt at oprette forbindelse til et SPARQL-slutpunkt via HTTP, stille en SELECT-forespørgsel eller en opdateringsforespørgsel (LOAD, INSERT, DELETE).

15. UCI Machine Learning Repository

Det fungerer som et omfattende lager af databaser, domæne teorier og data generatorer, der bruges af maskinlæringssamfundet til empirisk analyse af maskinlæringsalgoritmer.

I dette lager er der på nuværende tidspunkt 463 datasæt som en tjeneste til maskinlæringssamfundet.

Center for maskinlæring og intelligente systemer ved University of California, Irvine er vært for og vedligeholder det. David Aha havde oprindeligt oprettet det som en kandidatstuderende ved UC Irvine.

Siden da bruger studerende, undervisere og forskere over hele verden det som en pålidelig kilde til maskinlæringsdatasæt.

Hvordan det fungerer er, at hvert datasæt har sin særskilte webside, der indeholder alle de kendte detaljer, herunder alle relevante publikationer, der undersøger det. Du kan downloade disse datasæt som ASCII-filer, ofte det nyttige CSV-format.

Detaljerne i datasæt er opsummeret af aspekter som attributtyper, antal forekomster, antal attributter og offentliggjort år, der kan sorteres og søges.

Åbne dataportaler og søgemaskiner:

Mens der er masser af datasæt, der udgives af adskillige agenturer hvert år, bliver meget få datasæt anerkendt og etableret.

Årsagen til, at meget få sådanne datasæt opretholder som en nyttig ressource, er, at det er en udfordring at udvikle, administrere og levere dataene på en måde, som folk og organisationer finder det nyttigt og let at bruge.

Imidlertid finder du nedenfor en liste over andre få vigtige åbne dataportaler og platforme, der giver brugerne mulighed for at få adgang til åbne data ganske let, studere virkningen og få værdifuld indsigt.

  1. Google datasæt søgning
  2. Datavers
  3. Åbn datasæt
  4. Ckan
  5. Åbn Data Monitor
  6. Plenar.io
  7. Åbn datakort

Konklusion

Åbne data er dagsordenen. Verden er gradvist begyndt at bevæge sig mod åbne systemer, og åbne data er med rette synkroniseret med det.

Virksomheden og organisationer, der udnytter åbne data, får en konkurrencemæssig fordel og vil være i stand til at dominere fremtiden.