1. 프로젝트 소개

1.1 프로젝트 개요


1.1.1 대회 소개

Data-Centric AI는 Model-Centric AI의 반대 개념으로, 성능 향상 및 최적화를 위해 데이터의 수집, 관리, 분석 등의 기법을 통해 데이터의 품질과 가치를 최대화하는 것이다. 본 대회는 다국어 영수증 이미지에서 글자를 검출하는 Task에서 모델 성능은 고정하고, 데이터 보완, 전처리와 증강을 통해서 성능을 향상시키는 방식으로 진행되었다.

1.1.2 팀 구성 및 역할

2. 프로젝트 수행 과정

2.1 EDA와 베이스라인 분석


2.1.1 EDA

표1. 데이터셋 이미지 너비와 높이 분포

표1. 데이터셋 이미지 너비와 높이 분포

표2. 이미지당 텍스트 수 분포

표2. 이미지당 텍스트 수 분포

입력 이미지의 크기는 고정된 비율없이 다양하게 분포되어 있었고, 최종적으로 코드를 통해 Resize와 Crop한 1024 x 1024 사이즈의 이미지를 사용하고 있다. 각 이미지당 BBox는 약 40~90개로 구성되어 있다.

표 3. 언어별 BBox 개수

표 3. 언어별 BBox 개수

표 4. 언어별 세로 BBox 개수

표 4. 언어별 세로 BBox 개수

표 5. 언어별 글자 길이 분포

표 5. 언어별 글자 길이 분포

BBox 수는 베트남어가 가장 많았다. 세로 BBox 개수는 각 언어당 2,000개 내외로 확인되었으나, 실제 데이터는 90도 회전된 이미지의 텍스트에 대한 BBox 또는 하나의 텍스트에 관한 BBox였다.

2.1.2 베이스라인 결과 분석

초록색 bbox : predicted bbox