1. 프로젝트 소개

1.1 프로젝트 개요

1.1.1 대회 소개

Data-Centric AI는 Model-Centric AI의 반대 개념으로, 성능 향상 및 최적화를 위해 데이터의 수집, 관리, 분석 등의 기법을 통해 데이터의 품질과 가치를 최대화하는 것이다. 본 대회는 다국어 영수증 이미지에서 글자를 검출하는 Task에서 모델 성능은 고정하고, 데이터 보완, 전처리와 증강을 통해서 성능을 향상시키는 방식으로 진행되었다.

데이터셋 구성 : 중국어, 일본어, 태국어, 베트남어로 된 영수증 이미지
- 각 언어당 (train) 100장씩 총 400장, (test) 30장씩 총 120장
실제 데이터셋은 라이선스 문제로 원본을 게시할 수 없어, 본문에는 공유를 허가받은 개인 라이선스 이미지로 재구성하여 포함하였음을 밝힙니다.

1.1.2 팀 구성 및 역할

EDA와 데이터 전처리 : 김예진, 배형준, 송재현, 이재효, 차성연 / 데이터 수집 : 이재효
데이터 증강 : 김예진, 배형준, 이재효

2. 프로젝트 수행 과정

2.1 EDA와 베이스라인 분석

2.1.1 EDA

표1. 데이터셋 이미지 너비와 높이 분포

표2. 이미지당 텍스트 수 분포

입력 이미지의 크기는 고정된 비율없이 다양하게 분포되어 있었고, 최종적으로 코드를 통해 Resize와 Crop한 1024 x 1024 사이즈의 이미지를 사용하고 있다. 각 이미지당 BBox는 약 40~90개로 구성되어 있다.

표 3. 언어별 BBox 개수

표 4. 언어별 세로 BBox 개수

표 5. 언어별 글자 길이 분포

BBox 수는 베트남어가 가장 많았다. 세로 BBox 개수는 각 언어당 2,000개 내외로 확인되었으나, 실제 데이터는 90도 회전된 이미지의 텍스트에 대한 BBox 또는 하나의 텍스트에 관한 BBox였다.

2.1.2 베이스라인 결과 분석

초록색 bbox : predicted bbox