스웨덴 국립도서관이 AI를 활용하여 수세기에 걸친 언어 데이터를 잠금 해제한 방법

May 10, 2023

바이킹 시대 원고부터 1970년대 방송까지, AI는 스웨덴 역사의 핵심인 1,800만 개 이상의 항목을 디지털화하도록 돕고 있습니다.

스웨덴 국립 도서관(Kungliga biblioteket)은 국가의 인쇄 및 전자 역사 자료를 수집 및 보존하고 대중과 연구자가 접근할 수 있도록 하는 일을 담당합니다.

AI 개발을 중단하면 실제로 무엇을 얻을 수 있을까요?

책, 신문, 잡지, 지도, 사진, 오디오 녹음을 포함하여 1,800만 개가 넘는 품목을 소장하고 있는 이 컬렉션은 천 년이 넘는 역사를 가지고 있습니다.

연구원과 대중이 이러한 컬렉션에 더 쉽게 접근할 수 있도록 하기 위해 광범위한 현대화 전략의 일환으로 인공 지능(AI)의 강력한 잠재력을 활용했습니다.

AI는 보다 미래 지향적인 프레임워크에서 논의되는 경우가 많지만, 스웨덴 국립도서관을 포함하여 많은 조직에서 과거에 대한 통찰력을 얻기 위해 AI를 활용하고 있습니다. 도서관의 소장품은 방대하고 다양하며 지속적으로 증가하고 있습니다. 가장 큰 과제 중 하나는 보유하고 있는 엄청난 양의 자료를 관리하는 것이었습니다.

Kungliga biblioteket의 데이터 연구소인 KBLab의 Love Börjeson 이사는 "우리가 가지고 있는 가장 오래된 사본은 대략 바이킹 시대의 것입니다"라고 말합니다. "우리는 또한 매우 큰 아이슬란드 컬렉션과 매우 큰 라틴 컬렉션을 보유하고 있습니다."

도서관에는 매년 수백만 개의 새로운 항목이 접수되는데 이를 따라가기가 어려웠습니다. 또 다른 과제는 자료의 깊이가 너무 깊어서 샅샅이 뒤지기 어렵게 하면서 컬렉션을 연구자가 더 쉽게 발견할 수 있도록 만드는 것이었습니다.

Börjeson은 2019년부터 KBLab을 이끌고 있으며, 2021년부터 응용 언어 기술에 대한 AI 스웨덴의 데이터 및 인프라 리더로 활동하고 있습니다. 그는 고성능 컴퓨팅(HPC) 환경에서 대규모 AI 모델로 작업하고 있으며, 컴퓨터 사회 과학 분야의 교육 배경을 가지고 있습니다. 스탬포드.

목록화, 등록, 보존 등 컬렉션 관리와 관련된 작업을 자동화하는 것이 최우선 과제였습니다. 도서관은 또한 이러한 컬렉션의 검색 가능성을 향상시키기를 희망했습니다. AI를 수용한 도서관은 또한 해당 분야의 최신 연구 및 개발을 따라잡고 앞서 나가기 위해 최신 도구와 기술을 사용해야 하는 상황에 직면했습니다.

도서관은 다층 컴퓨팅 인프라 구현을 포함하는 현대화 프로세스에 착수했습니다. 여기에는 새로운 노트북, 워크스테이션, 서버 및 슈퍼컴퓨터가 포함되었습니다.

스웨덴 국립도서관은 17세기부터 신문, 1979년부터 라디오와 TV 방송, 2005년부터 전자 납본을 디지털화해 왔습니다.

또한 2019년 변환기 모델을 시작으로 수세기에 걸쳐 언어 데이터를 디지털화하는 작업을 진행해 왔지만 더 강력한 시스템이 필요하다는 사실을 금방 깨달았습니다.

그들은 2020년과 2021년에 온프레미스 AI 개발을 위해 스웨덴 공급업체 AddPro로부터 인수한 두 대의 Nvidia DGX 시스템을 설치하여 EU의 GPU 기반 슈퍼컴퓨터에서 훨씬 더 큰 규모의 실행을 준비할 수 있었습니다.

라이브러리는 LLM(대형 언어 모델) 교육을 위한 PyTorch 프레임워크인 Nvidia NeMo Megatron과 오디오를 텍스트로 변환하는 AI 도구를 사용합니다. 연구자들은 이러한 플랫폼을 사용하여 특정 라디오 방송을 검색할 수 있습니다.

역사가, 고고학자, 음악가, 데이터 과학자들은 역사적 순간을 다시 상상하기 위해 AI를 배포하고 있습니다. 현대 컴퓨팅의 진화에 관한 많은 이야기와 마찬가지로 AI의 성공은 협업, 기회 및 실험의 가치에 기반을 두고 있습니다.

더 읽어보세요

팀은 또한 텍스트 생성 모델을 개발하고 있으며 AI를 사용하여 비디오를 처리하고 자동 설명을 생성하기를 희망하고 있습니다. 도서관은 또한 예테보리 대학교와 제휴하여 연구소 모델을 사용하여 언어 연구를 위한 다운스트림 앱을 개발했습니다.

도서관의 가장 중요한 성과 중 하나는 SweLL(스웨덴 언어 모델)이라는 AI 기반 시스템으로, 수세기에 걸친 언어 데이터를 디지털화하고 잠금 해제하는 과제를 해결하기 위해 배포되었습니다. SweLL은 기계 학습 알고리즘을 사용하여 스웨덴어 텍스트를 분석하고, 언어 패턴과 구문을 학습하고, 손으로 쓴 문서를 디지털 텍스트로 복사합니다. 또한 시스템은 철자 오류를 수정하고 주제, 기간 및 작성자별로 텍스트에 자동으로 태그를 지정하고 분류합니다.

이전의: RS, 산업, 인프라, 에너지 및 운송 시장을 위한 솔루션으로 3개의 새로운 공급업체 추가 다음: 높은

문의 보내기

보내다