Skip to main content ITU
Logo
  • Uddannelser
    • Bachelor
    • BSc i Global Business Informatics
    • BSc i Digital Design og Interaktive Teknologier
    • BSc i Softwareudvikling
    • BSc i Data Science
    • Sådan søger du ind
    • Gæstestuderende på bachelorniveau
    • ITU Summer University på bachelorniveau
    • Kandidat
    • MSc i Digital Innovation & Management
    • MSc i Digital Design og Interaktive Teknologier
    • MSc i Softwaredesign
    • MSc i Data Science
    • MSc i Datalogi
    • MSc i Spil
    • Sådan søger du ind
    • Gæstestuderende på kandidatniveau
    • ITU Summer University på kandidatniveau
    • Studieliv
    • Spørg en studerende
    • Kvinder i tech
    • Studenterorganisationer
    • Studiestart
    • Labs for studerende
    • Specialpædagogisk støtte (SPS)
    • Studie- og Karrierevejledning
    • Besøg ITU
    • Åbent hus
    • Studerende for en dag
    • Studiepraktik i uge 43
    • Coding Café for unge kvinder
    • IT-Camp for unge kvinder
    • For gymnasielærere
    • Besøg ITU med klassen
    • Digital Dannelse
    • Coding Class
  • Efteruddannelser
    • Efteruddannelser
    • Se alle efteruddannelser
    • Besøg og arrangementer
    • Master i it
    • Om Master i it-ledelse
    • Sådan søger du ind
    • Nyhedsbrev
    • Kontakt
    • Enkeltfag
    • Se udbud af enkeltfag
    • Enkeltfag på masterniveau
    • Sådan søger du ind
    • Nyhedsbrev
    • Kontakt
    • Korte kurser | ITU Professional Courses
    • Se alle korte kurser
    • Nyhedsbrev
    • Kontakt
  • Forskning
    • Forskningsektioner
    • Data Science
    • Data, Systems and Robotics
    • Digital Business Innovation
    • Digitalization Democracy and Governance
    • Human-Computer Interaction and Design
    • Play Culture and AI
    • Software Engineering
    • Technologies in Practice
    • Theoretical Computer Science
    • Forskningscentre
    • Center for Digital Play
    • Center for Climate IT
    • Center for Computing Education Research
    • Center for Digital Velfærd
    • Forskningscenter for offentlig IT
    • Danish Institute for IT Program Management
    • Centre for Information Security and Trust
    • ITU Research Portal
    • Find forsker
    • Find forskning
    • Forskningsenheder
    • Forskningscentre
    • Forskningsektioner
    • Forskningsgrupper
    • Labs
    • Forskningsetik og -integritet
    • God forskningspraksis
    • Tekniske rapporter
    • Tekniske rapporter
    • Ph.d.-skole
    • Om Ph.d.-skolen
    • Ph.d.-kurser
    • Ph.d.-forsvar
    • Ph.d.-stillinger
    • Ph.d.-håndbog
    • Ph.d.-support
  • Erhvervssamarbejde
    • Samarbejde med Studerende
    • Projektsamarbejde
    • Projektmarked
    • Studiejob
    • Projektopslag
    • Job- og projektbank
    • Employer Branding
    • IT Match Making
    • Sådan ansætter du en ITU'er
    • Lav opslag i Jobbanken
    • Innovation og samarbejde
    • Læs mere om innovation og samarbejde
    • ErhvervsPhD
    • Ansæt en Erhvervs-p.hd
    • Maritime Hub
    • Innovation og iværksætteri
    • ITU Business Development
    • ITU NextGen
  • Om ITU
    • Om ITU
    • Presse
    • Stillinger
    • Kontakt
  • ENG
ITU-ledet forskningsprojekt vil forbedre kvaliteten af maskinoversættelser
ITU  /  Presse  /  Nyheder fra ITU  /  ITU-ledet forskningsprojekt vil forbedre kvaliteten af maskinoversættelser

ITU-ledet forskningsprojekt vil forbedre kvaliteten af maskinoversættelser

Ifølge lektor på IT-Universitet Leon Derczynski kan Danish Gigaword Project forbedre kvaliteten af alt fra maskinoversættelse til opsporing af fake news på dansk.

Leon DerczynskiInstitut for DatalogiForskningalgoritmerkunstig intelligens

Skrevet 4. juni 2021 08:31 af Theis Duelund Jensen

I den moderne verden bruger vi computere hver dag til at bearbejde tekst og sprog, men sammenlignet med mennesker, har computere brug for større mængder data for at forstå et sprog, og den data er ikke lige tilgængelig blandt alle sprogområder. Hvad betyder det helt konkret? Lad os illustrere pointen med et eksempel fra Google Translate:

Google Translate forsøger at oversætte idiom

I stedet for at lyde som en ”galning”, lyder man pludselig som en ”nøddetaske”. Det er er der imidlertid en god forklaring på, for Google Translate arbejder med en model – en algoritme, der med datainput kan trænes til at foretage valg i en given proces fx i oversættelsen af en sætning – hvis data over det danske sprog er meget begrænset. Det er her, det ITU-ledede Danish Gigaword Project kommer ind i billedet.

Forskningsprojektet, der er anført af lektor på ITU Leon Derczynski og Manuel R. Ciosici fra University of Southern California, samler det første såkaldte gigaword datasæt (fordi det rummer over en milliard danske ord), der kan gøre en automatiseret oversættelsestjeneste som Googles langt mere træfsikker.

- Vi havde allerede et gigaword-datasæt til det engelske sprog for 30 år siden. Selv Islands 360.000 indbyggere har et gigaword-datasæt, der dækker deres sprog. Danmark er langt bagefter på området. Projektet er vigtigt, hvis vi vil have bedre kunstig intelligens, der kan forstå det danske sprog. Der er behov for store datasæt for at udvikle nye værktøjer, siger Leon Derczynski.

Det er netop målet med gigaword-projektet. Kort sagt og med terminologi lånt fra Natural Language Processing, opgraderer datasættet Dansk fra at være et såkaldt lavressource sprog til at være et højressource sprog. Det betyder, at vi kan forvente at se bedre maskinoversættelser, bedre talegenkendelse og mere præcise søgeresultater, så snart datasættet er i brug.

Mange bække små

Men hvad er et gigaword-datasæt helt præcist? Kort fortalt er det et enormt datasæt over det danske sprog, som det optræder i skriftlige kilder. For at sammensætte et datasæt, der indeholder samtlige nuancer og sproglige spidsfindigheder i skriftlig kommunikation på et givent sprog, er der imidlertid behov for mere end bare en masse data – der er behov for en masse data fra en masse forskellige kilder.

- Hvis man kun træner sine algoritmer med fx nyhedsartikler, så vil de kun være i stand til at forstå nyhedsartikler. Det kan være fint i visse sammenhænge, men det er de færreste af os, der kommunikerer med det samme sprog som DR eller Weekendavisen bruger. Vi udtrykker os meget forskelligt via skrift. Det var vigtigt i vores projekt, at vi fik så mange forskellige eksempler på Dansk med som muligt, fortæller Leon Derczynski, der startede projektet i 2019 og siden har ledet og koordineret arbejdet sammen med frivillige kræfter fra alle hjørner af det danske tech- og forskningsmiljø.

Den videnskabelige artikel om Danish Gigaword Project, som Leon Dercsynski og hans medforfattere netop har præsenteret ved Nordic Conference on Computational Linguistics, indeholder en liste over datakilder. I datasættet indgår bl.a. mødereferater og taler fra Folketinget, data fra et videnskabeligt projekt om spontan tale, Wikipedia-sider og en digital version af biblen.

Copyright-udfordringer

Det er dog lettere sagt end gjort at oprette et gigantisk sprogdatasæt, især hvis man arbejder i en dansk sammenhæng.

- En af de største barrierer for vores arbejde i Danmark er, at folk er langt mere forsigtige, når det handler om at dele data. I USA har The New York Times, Associated Press, Xinhua News Agency og Agence France-Presse samlet doneret artikler indeholdende en milliard ord til det engelske datasæt. Det er sværere i Danmark, fordi ophavsretten stiller andre krav. Det har været en kamp at sætte datasættet sammen og gøre det frit tilgængeligt. Det er netop vores overordnede mål, at det skal være frit tilgængeligt for forskere og virksomheder, så de kan udvikle nye teknologier, siger Leon Derczynski.

Selvom rettigheder har været en stor nød at knække, så er det lykkedes at skabe samarbejder med store danske medier om deling af sprogdata. Senest har Leon Derczynski skaffet projektet 50.000 artikler udgivet mellem 2010 og 2019 hos TV2 Regionerne.

- De store sprogmodeller, som man med jævne mellemrum ser omtalt i medierne i forbindelse med nye fremskridt inden for kunstig intelligens, taler og forstår kun engelsk. Det er virkelig ærgerligt, hvis man arbejder med fx dansk. Med det danske gigaword-datasæt kan vi nu træne langt mere avancerede modeller og sætte skub i teknologiudviklingen i Danmark.

Mere information:

Du kan læse mere om projektet på gigaword.dk

Theis Duelund Jensen, presseansvarlig, 2555 0447, thej@itu.dk


Nyheder

"De vil ramme os på tilliden"

"De vil ramme os på tilliden"

6. maj 2025

Som en del af videnskabsfestivallen Forskningens Døgn havde IT-Universitetet og Dagbladet Information samlet en række eksperter for at tale om cyberkrig i Danmark, og hvor klar vi er til det. Minister for Samfundssikkerhed og Beredskab Torsten Schack Pedersen deltog også i samtalen.

Professorportræt: Nutan Limaye skubber til grænserne for beregningskompleksitet

Professorportræt: Nutan Limaye skubber til grænserne for beregningskompleksitet

1. maj 2025

Den 22. maj 2025 kl. 14:30 vil professor Nutan Limaye fra sektionen Theoretical Computer Science holde sin tiltrædelsesforelæsning i Auditorium 0 på IT-Universitetet i København. Forelæsningen har titlen: “My reflections on the last two decades and Complexity Theory”.

Professorportræt: Anna Vallgårda vil udfordre designet af omsorgsteknologi

Professorportræt: Anna Vallgårda vil udfordre designet af omsorgsteknologi

24. april 2025

Den 9. maj 2025 kl. 14.30 holder professor Anna Vallgårda sin tiltrædelsesforelæsning i Auditorium 0 på IT-Universitetet i København. Forelæsningen har titlen: ”Radical Redesign of Care Technologies”.

Er Danmark klar til cyberkrig?

Er Danmark klar til cyberkrig?

8. april 2025

En gruppe forskere fra IT-Universitetet i København undersøger, hvad Danmark kan lære af Ukraine i forhold til at forberede sig på cyberkrigsførelse. Cyberkrigsførelse påvirker ikke kun regeringer og virksomheder, men også civile, og forskerne spørger, hvad der skal gøre, hvis vi bliver angreb

Forskere vil lære matematikelever kritisk tænkning med data science

Forskere vil lære matematikelever kritisk tænkning med data science

31. marts 2025

I et nyt forskningsprojekt på IT-Universitetet og Københavns Universitet vil en gruppe forskere undersøge, hvordan data science kan blive en del af gymnasiets matematikundervisning for at give eleverne et bedre grundlag for kritisk tænkning og mulighed for at belyse og nuancere påstande de møder i deres hverdag.

Ny bog er en guide til succesfuld AI-implementering

Ny bog er en guide til succesfuld AI-implementering

28. marts 2025

Kunstig intelligens har stort potentiale i organisationer, men hvordan realiserer man det i praksis? Lektor og underviser på ITU’s Master i IT-ledelse, Carsten Lund Pedersen, er medforfatter til bogen ”Gunstig Intelligens,” der som den første af sin slags udstikker en kurs mod succes med AI-projekter i organisationen. Bogen kan forudbestilles nu.

ITU forsker sikrer bevilling til sikkerhedsoptimering af AI-systemer

ITU forsker sikrer bevilling til sikkerhedsoptimering af AI-systemer

19. marts 2025

Lektor Alessandro Bruni fra IT-Universitetet i København er i øjeblikket på Advanced Institute of Science and Technology i Japan, hvor han samarbejder med andre forskere om at udforske det matematiske fundament for verificering af maskinlæringssystemer. Projektet er støttet af Carlsbergfondet.

Professorportræt: Vasilis Galis fandt sin forskningsvej i Athens metro

Professorportræt: Vasilis Galis fandt sin forskningsvej i Athens metro

13. marts 2025

Den 28. marts 2025 kl. 14.30 holder professor Vasilis Galis fra sektionen Technologies in Practice sin tiltrædelsesforelæsning i Auditorium 0 på IT-Universitetet i København. Forelæsningen har titlen: ”Research against dead time”.

ITU-forsker undersøger valg i Grønland

ITU-forsker undersøger valg i Grønland

11. marts 2025

Den 11. marts 2025 er der valg til Inatsisartut (Grønlands parlament). I flere år har forskere fra ITU ledet af professor Carsten Schürmann og Center for Information Security and Trust undersøgt valg og muligheden for internetvalg i netop Grønland og valget i dag er ingen undtagelse.

DFF-støttet ITU-projekt skal udvikle teoretisk fundament for probabilistiske sessionstyper

DFF-støttet ITU-projekt skal udvikle teoretisk fundament for probabilistiske sessionstyper

6. marts 2025

Stigende teknologisk kompleksitet kræver en probabilitisk tilgang til kritisk vigtige it-systemer. Et nyt forskningsprojekt, anført af lektor på ITU Marco Carbone, vil skabe fundamentet for probabilistiske sessionstyper.

Urbane motorveje er barrierer for sociale forbindelser

Urbane motorveje er barrierer for sociale forbindelser

5. marts 2025

Forskere fra IT-Universitetet i København har bevist, at urbane motorveje begrænser sociale relationer i de 50 største byer i USA. Det er det første kvantitative studie af barriereeffekten af urbane motorveje i reduktionen af sociale relationer på tværs af nabolag.

Ny forskning skal finde effektive strategier til epidemiforebyggelse

Ny forskning skal finde effektive strategier til epidemiforebyggelse

26. februar 2025

Adjunkt på ITU Jonas Juul modtager Novo Nordisk Fondens Data Science Investigator-bevilling på knap 6,5 mio. kr. til et projekt, der bl.a. skal forbedre statistiske metoder til at forudsige smitteudbrud.

Within Limits – en kunstinstallation om beregningskraft og ressourcebegrænsning

Within Limits – en kunstinstallation om beregningskraft og ressourcebegrænsning

24. februar 2025

Den 7. marts inviterer kunstner Jacob Remin sammen med lektor James Maguire og postdoc Frauke Mennes fra Center for Klima-IT på ITU til åbningen af Within Limits – en kunstinstallation, der stiller spørgsmålstegn ved beregningskraft og ressourcegegrænsning.

ITU-studerende og -alumner vinder priser ved Copenhagen Gaming Week

ITU-studerende og -alumner vinder priser ved Copenhagen Gaming Week

21. februar 2025

ITU var repræsenteret med spil udviklet af både studerende og alumner fra universitetet ved Copenhagen Gaming Week og 'Spilprisen', som fandt sted i sidste uge. Studerende fra MSc Games vandt prisen for 'Best Student Game', mens alumner fra samme studieprogram vandt for 'Best Debut'.

Video: Kan kunst hjælpe os til at forstå AI?

Video: Kan kunst hjælpe os til at forstå AI?

13. februar 2025

Kunster og ekstern lektor på ITU, Mogens Jacobsen, arbejder med at lave digital kunst og bl.a. har skabt værker, der afslører iboende bias i de datasæt, som kunstig intelligens er trænet på.

Nyt forskningsprojekt vil finde mere inkluderende metoder til at udvikle algoritmer

Nyt forskningsprojekt vil finde mere inkluderende metoder til at udvikle algoritmer

10. februar 2025

Lektor Veronika Cheplygina har modtaget en ”Novo Nordisk Data Science Investigator”-bevilling på knap 11 mio. kr. Bevillingen kommer til at finansiere forskning i, hvordan mere inkluderende undervisnings- og forskningsmiljøer kan lede til bedre algoritmer for medicinsk billeddannelse.

Speciale om digital kløft i fængslerne vinder pris

Speciale om digital kløft i fængslerne vinder pris

31. januar 2025

Tre studerende fra ITU har vundet Institut for Menneskerettigheders Specialepris for deres speciale ”Fængslets digitale kløft”. I specialet undersøges det, hvordan den digitale kløft mellem indsatte i danske fængsler, og det omgivende samfund kan udbedres.

Ny forskning fra ITU analyserer angreb på store sprogmodeller

Ny forskning fra ITU analyserer angreb på store sprogmodeller

16. januar 2025

Hvad motiverer nogle til at manipulere med store sprogmodeller, og hvordan bærer de sig ad? I et nyt studie definerer forskere fra ITU såkaldt ”red teaming” af sprogmodeller for at øge sikkerheden i teknologien.

Jakob Grue Simonsen bliver ny prorektor på IT-Universitetet i København

Jakob Grue Simonsen bliver ny prorektor på IT-Universitetet i København

22. november 2024

Jakob Grue Simonsen, der kommer fra en stilling som institutleder på Datalogisk Institut, Københavns Universitet, har fokus på trivsel og samarbejde, når han tiltræder som prorektor på ITU d. 1.januar 2025.

Ny bog sætter fokus på digital stress på arbejdspladsen

Ny bog sætter fokus på digital stress på arbejdspladsen

21. november 2024

Interview: Tidligere ph.d.-studerende på IT-Universitetet, Raluca Stana, har sammen med sin daværende vejleder, lektor Hanne Westh Nicolajsen, skrevet en bog, som skal hjælpe virksomheder med at håndtere teknostress.

Kontakt os

Telefon
+45 7218 5000
E-mail
itu@itu.dk

Alle kontaktoplysninger

Tilgængelighedserklæring

Find os

IT-Universitetet i København
Rued Langgaards Vej 7
2300 København S
Danmark
Find vej

Følg os

ITU Student /
Privatliv /
EAN-nr. 5798000417878/
CVR-nr. 29 05 77 53 /
P-nummer 1005162959

Denne side er udskrevet fra https://www.itu.dk/404