2024.05.22 (수)

  • 맑음속초12.4℃
  • 맑음13.1℃
  • 맑음철원13.9℃
  • 구름조금동두천15.0℃
  • 맑음파주15.5℃
  • 맑음대관령4.5℃
  • 구름조금춘천13.1℃
  • 안개백령도13.1℃
  • 맑음북강릉11.5℃
  • 맑음강릉11.4℃
  • 맑음동해10.8℃
  • 박무서울16.7℃
  • 구름많음인천14.5℃
  • 맑음원주15.8℃
  • 구름조금울릉도12.5℃
  • 박무수원15.0℃
  • 맑음영월12.9℃
  • 맑음충주12.8℃
  • 구름많음서산14.4℃
  • 맑음울진10.6℃
  • 구름조금청주16.8℃
  • 박무대전15.4℃
  • 구름조금추풍령11.8℃
  • 구름조금안동11.8℃
  • 구름조금상주12.3℃
  • 맑음포항12.3℃
  • 구름많음군산15.1℃
  • 박무대구12.0℃
  • 박무전주16.3℃
  • 박무울산10.7℃
  • 박무창원14.8℃
  • 박무광주17.0℃
  • 구름많음부산14.8℃
  • 흐림통영14.5℃
  • 박무목포16.4℃
  • 구름많음여수16.3℃
  • 박무흑산도15.2℃
  • 흐림완도14.8℃
  • 구름많음고창
  • 구름많음순천11.9℃
  • 박무홍성(예)15.4℃
  • 구름조금13.7℃
  • 흐림제주17.9℃
  • 흐림고산16.6℃
  • 흐림성산17.6℃
  • 흐림서귀포19.4℃
  • 구름많음진주13.4℃
  • 구름조금강화13.9℃
  • 맑음양평15.0℃
  • 맑음이천15.4℃
  • 맑음인제10.2℃
  • 구름조금홍천12.6℃
  • 맑음태백5.9℃
  • 맑음정선군8.6℃
  • 맑음제천12.4℃
  • 맑음보은12.5℃
  • 맑음천안13.4℃
  • 구름조금보령14.5℃
  • 구름조금부여16.9℃
  • 구름조금금산13.5℃
  • 맑음15.2℃
  • 구름많음부안15.7℃
  • 구름많음임실16.3℃
  • 구름조금정읍16.1℃
  • 구름조금남원15.8℃
  • 구름많음장수14.0℃
  • 구름조금고창군16.2℃
  • 구름조금영광군15.4℃
  • 구름많음김해시13.8℃
  • 구름조금순창군17.1℃
  • 구름조금북창원15.3℃
  • 구름많음양산시13.9℃
  • 구름많음보성군14.0℃
  • 구름많음강진군13.8℃
  • 구름많음장흥14.6℃
  • 구름많음해남14.2℃
  • 구름많음고흥13.3℃
  • 구름많음의령군13.3℃
  • 구름조금함양군13.8℃
  • 구름많음광양시15.4℃
  • 구름많음진도군13.0℃
  • 맑음봉화11.7℃
  • 맑음영주10.7℃
  • 흐림문경11.7℃
  • 구름조금청송군9.9℃
  • 맑음영덕9.7℃
  • 맑음의성10.9℃
  • 맑음구미12.7℃
  • 맑음영천9.3℃
  • 맑음경주시10.0℃
  • 구름조금거창12.8℃
  • 구름조금합천13.7℃
  • 구름많음밀양13.5℃
  • 구름조금산청13.9℃
  • 구름많음거제13.5℃
  • 구름많음남해15.6℃
  • 구름많음13.7℃
기상청 제공
인공지능 학습용 데이터, 역대 최대 규모 개방
  • 해당된 기사를 공유합니다

인공지능 학습용 데이터, 역대 최대 규모 개방

제조‧로보틱스 등 14대 분야 691종으로 데이터 다양화

[디지털금융신문]

 

과학기술정보통신부와 한국지능정보사회진흥원은 지난해 인공지능 학습용 데이터 구축사업을 통해 개발한 학습용 데이터셋 310종을 오늘부터 7월말까지 ‘AI허브’를 통해 순차 개방한다고 밝혔다.

 

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸다. 이번에 310종 약 15억 건의 데이터 개방을 완료하면 ‘AI허브’ 이용자들은 총 691종, 약 26억 건의 데이터를 활용할 수 있게 된다. 특히 올해는 대규모 개방인 점을 고려하여, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여 종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

 
1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다. 
 
‘AI허브’에 공개되는 데이터는 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영하여 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

 

엄열 과기정통부 인공지능정책관은 “챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다”며 “우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 확보할  예정”이라고 밝혔다.

 

포토






모바일 버전으로 보기