Guld i digitala källor

 

I internet, i historiska samlingar och i arkiv finns oändliga mängder material, men mycket är ännu svårtillgängligt.

Många forskningsdrömmar har hittills varit svåra att uppfylla.

Genom infrastrukturen Swe-Clarin kommer det att bli lättare att bearbeta digitaliserade källor och göra materialet tillgängligt.

* * * * *

Den enorma mängden material i databaser är en utmaning. I
Språkbanken finns elva miljarder ord och de ökar ständigt, inte minst genom sociala medier. Språkresurser som texter, digitaliserat tal och video är viktiga rådata för många slags vetenskap. Att få tillgång till detta skulle föra forskningen framåt.

Kulturarvsdata digitaliseras i snabb takt. Nordiska museet digitaliserar etnografiskt material från 1920-talet och framåt, Kungliga Biblioteket har digitaliserat alla dagstidningar tills nu och Litteraturbanken och Projekt Runeberg har digitaliserat tusentals böcker. Men – ingen kan göra något vettigt med 8 miljarder ord ”för hand”. Det behövs avancerade datorverktyg för att se vad som skulle vara intressant att forska om.

Det är här Swe-Clarin kommer in. Uppdraget är att utveckla språktekniska verktyg som kan hjälpa forskare inom främst humaniora och samhällsvetenskap att bearbeta digitaliserat material. Verktygen är dataprogram som förstår, sorterar och kategoriserar innehållet i texter och digitaliserat tal. Det ska också finnas bra verktyg för att arbeta med historiska språkformer som exempelvis äldre svenska, latin och grekiska.

Datamining innebär att textinnehållet transformeras till tabelldata för att det ska bli möjligt att leta efter upprepningar och mönster i ett stort material.

Bland kassakvitton från en stormarknad under tio år med tidpunkter, varor och kostnader går det lätt att söka efter samband och trender — vem köper vad, och när? — om materialet är uppställt på det här sättet. Med sådana tabelldata öppnas många möjligheter …

 

Läs mer >>

Forskare vaskar guld i digitala källor. Tidningen Curie, 2016-02-02.

Kulturarvet som ettor och nollor. Lars Borin ”Vad är Swe-Clarin?”; KB, 2015-10-09.

CLARIN (Common Language Resources and Technology Infrastructure) är ett ESFRI-initiativ som syftar till att göra språkbaserade material tillgängliga som primära forskningsdata för humanistisk och samhällsvetenskaplig (HS) forskning med hjälp av de avancerade text- och talbearbetningsverktyg och språkresurser som har utvecklats under många år inom språkteknologisk forskning.

SWE-CLARIN. Digisam, en avdelning vid Riksarkivet.

Språkrådet bildar centrum inom Swe-Clarin. Institutet för språk och folkminnen; 2015-06-02.

 

SL

 

Kommentarer är stängda.