Abstract
머신러닝을 사용한 자동화된 **표면 이상 탐지(Automated surface-anomaly detection)**는 visual inspection 분야의 적용에 매우 직접적인 영향을 주는 유망한 연구이다. 딥러닝은 이 연구에 더 적합하다.
이 논문은
-
표면 이상을 detection, segmentation을 위해 고안되고
-
표면 crack detection이라는 구체적인 영역으로 증명된
segmentation-based deep-learning 구조를 제안한다.
이 설계는 아주 작은 양의 samples로 훈련된 모델을 만들기 때문에, 실용적이다.
다수의 논문 실험은 주석(annotation), 필요한 훈련샘플 수, 필요한 계산된 비용에 필요한 예측에 빛을 발한다. 실험들은 최근에 만들어진 실제 품질 관리 데이터셋에서 작동된다. 또한, 적은 훈련 샘플 수(25-30개의 defect 훈련 데이터)로 학습될 수 있음을 증명한다. (대부분의 딥러닝 적용은 수백, 수천개의 샘플이 필요하다.)
따라서, 본 논문의 딥러닝 방식은 사용가능한 defective 샘플 수가 한정되어 있을 때 산업에서 유용하게 사용된다. 데이터셋은 또한 surface-defect detection의 새로운 방법을 발전하고 평가하기 위해 공적으로 이용이 가능하다.
Introduction
산업 프로세스에서, 완제품의 품질 검사에서 중요한 업무는 제품 표면을 검사하는 것이다. 종종, 표면 품질 제어는 메뉴얼대로 수행되고, 작업자들은 복잡한 표면 defect를 규정하기 위해 교육받는다. 하지만 이는 시간이 매우 소모되고, 비효율적이고, 제품 생산 능력이 떨어진다.
고전적인 머신비전 방법들은 이러한 이슈들을 다루기 어렵다. (Paniagua et al 2010; Bulnes et al 2016). 4차 산업혁명 패러다임과 함께 새로운 제품의 빠른 적응이 필요한 생산 라인의 일반화가 트렌드이다.(Oztemel and Gursev 2018).
전형적으로, 고전적인 머신비전 접근에서 features는 반드시 특정한 영역에 맞게끔 수가공되어야 한다. 그런 다음 결정은 수작업에 의한 규칙 기반의 접근 혹은 SVM, decision trees, kNN과 같은 learning-based 분류기를 이용하여 정해진다. 그런 분류기들이 딥러닝 방법보다 덜 강력하기 때문에 수가공된 features는 매우 중요한 역할을 한다. 다양한 filter banks, 히스토그램, wavelet transforms, morphological operations 그리고 다른 기술들은 수가공된 적절한 features에 사용된다.
따라서, 수가공된 features는 고전적인 접근에서 중요한 역할을 하지만, 그런 features는 다른 작업에 적합하지 않고 머신 비전 방법이 다른 제품에 적용되지 못한다. 향상된 유연성을 위한 솔루션은 data-drive, 머신러닝 접근에서 찾을 수 있다. 개발된 방법들은 빠르게 새로운 타입의 제품, 적절한 수의 훈련 이미지만을 사용한 표면 defect에 적응할 수 있다.
이 논문은 눈에 보이는 표면 defect 탐지를 다루는 최첨단 머신러닝 방법을 사용하는 것에 초점을 맞추었다. 이 초점은 주요하게 딥러닝 방법에 맞추어져 있다. 이것은 최근에 computer vision 분야에서 가장 흔한 접근이다. 표면 품질 제어 문제(Chen and Ho 2016; Faghih-Roohi et al 2016; Weimer et al 2013; Kuo et al 2014)에 적용될 때, 딥러닝 방법은 훌륭한 결과를 얻고 다른 제품에 적응될 수 있다.
고전적인 머신비전 방법들에 비교해서, 딥러닝은 직접 low-level 데이터로부터 features를 배우고, 복잡한 구조를 나타내는 높은 능력을 가지고 있다. 따라서 완전하게 자동화된 학습 프로세스로 수가공된 features를 대체할 수 있다. 새로운 제품에 빠르게 적응하면서 이 방법은 4차 산업혁명에 필요한 유연한 생산라인에 적합하다.
그럼에도 불구하고, 질문이 남아있다. 실용적인 적용에서 적절한 성능을 얻기 위해 얼마나 많은 annotated data가 필요한지, 얼마나 정확한 annotations이 필요한지에 관한 질문이다. 이것은 수백만개의 학습 파라미터를 가진 딥러닝이 종종 실제로 얻기가 어려운 수천개의 이미지를 필요하기 때문에, 특히 중요한 질문이다.
이 논문은 표면품질 제어에 적절한 딥러닝 방법을 사용한다. 특히, 이 논문은 제조업의 표면 crack을 탐지하는데 적용된다.(그림1 참고) 전체적인 분류 성능 뿐 아니라 4차 산업혁명에 특히 중요한 3개의 특징을 위한 적절한 네트워크 구조가 적용된다. (a) 주석 필요 수
(b) 훈련 샘플 수
(c) 필요한 계산
필요한 데이터는 2단계 구조의 딥러닝 컨볼루션 네트워크의 효과적인 접근으로 사용된다.
Segmentation과 decision 구조는 작은 양의 훈련 샘플로 부터 학습되지만, 최첨단 결과를 가진다.
제안된 방법은 novel, 실제 데이터셋(KolektorSDD)에서 평가되었다. 데이터셋은 훈련에 이용할 defect있는 제품은 실제 산업 제품이다. 제안된 방법은 3개의 중요한 양상을 강조하는 학술적인 적용에 적합하다.
(a) 100% 탐지 비율을 달성하는 수동 검사 (defect의 다양한 수동 검증을 포함하여)
(b) 주석의 필요한 세부사항, 필요한 노동 비용을 이끄는 훈련된 샘플 수
(c) 필요한 계산 비용
학습 영역에서, 설계된 네트워크는 최근의 상업 제품과 2개의 표준 segmentation 네트워크를 포함한 최신식 방법에 관련해 좋은 성능을 낸다.
논문의 나머지 부분은 다음과 같이 구성된다.
"Related work"는 관련 내용에 대해 설명하고,
"Proposed approach" 영역은 segmentation과 decision 네트워크 세부사항을 설명한다. "Segmentation and decision network evaluation"영역은 제안된 네트워크의 평가를 설명한다. "Comparison with the state of the art" 영역은 최신의 상업 솔루션과 비교한다.
"Discussion and conclusion" 영역은 discussion을 결론 짓는다.
Related work
딥러닝은 AlexNet의 도입 이후 surface-defect 분류 문제에 적용되어왔다. Masci et al(2012)의 방법은 수가공된 features를 vector machine으로 합치는 머신러닝보다 좋은 성능을 가진다. 이 방법은 5개의 레이어를 사용하여 steel의 defect을 찾는다. 이 방법은 성능은 좋지만 ReLU, Batch normalization을 사용하지 않는 얕은 네트워크 이다.
Faghih-Roohi et al (2016)는 Masci와 비슷한 네트워크 구조를 사용하여 rail 표면의 defect를 찾고, ReLU 활성화 함수와 평가된 몇개의 네트워크 크기를 이용했다.
Chen and Ho(2016)
-OverFeat(Sermanet and Eigen 2014) 네트워크로 5개 defect 탐지
-많은 수의 labeld data를 식별(단점), 미리 학습된 네트워크를 사용함(장점)
....
Proposed approach
표면 탐지 문제는 이항분류문제로 말할 수 있다. 이것은 표면 품질 제어에 적합하다. 정확한 per-image 분류는 종종 defect의 정확한 위치화보다 중요하다. 하지만 딥러닝에서 작은 양의 샘플 문제를 극복하기 위해, 그림2와 같이 2단계 설계로 공식화했다. 첫번째 단계는 표면 defect의 픽셀 단위의 위치를 나타내는 segmentation network이다. 픽셀 단위의 loss로 훈련하는 네트워크는 효과적으로 개인의 훈련 샘플로 각각의 픽셀을 고려한다. 따라서 증가하는 효과적인 훈련 샘플의 수는 과적합을 막는다. 이항 분류가 수행되는 두번째 단계는 segmentation 결과와 segmentation 네트워크의 features를 함께 사용하는 추가적인 네트워크를 포함한다. 첫번째 단계의 네트워크는 segmentation network고, 두번째 단계의 네트워크는 decision network이다.
Segmentation network
제안된 네트워크는 11개의 컨볼루션 레이어와 3개의 1/2 resolution으로 감소시키는 max-pooling 레이어를 포함한다. 각각의 컨볼루션 레이어는 feature normalization과 non-linear ReLU 레이어가 뒤따른다. 두개의 레이어는 학습 동안 수렴 비율을 증가시킨다. feature normalization은 각각의 채널을 분산이 1인 zero-mean 분포로 정규화한다. 첫번째 9개의 레이어는 5X5 kernel size를 가지고, 나머지 2개 레이어들은 각각 15X15, 1X1 kenel size를 가진다. 다른 수의 채널들은 다른 레이어들에 할당된다. 그림2의 네트워크 구조의 자세한 묘사로 보여진다. 마지막 결과 mask는 결과 채널 수를 줄이는 1X1 컨볼루션 레이어가 적용된 이후에 얻어진다. 이것은 입력 이미지의 resolution을 8번 줄인 후 얻어진 single-channel output map이다. 드롭 아웃은 이 방법에 사용되지 않는데, 컨볼루션 레이어에서 공유되는 가중치가 충분한 규칙을 제공하기 때문이다.
제안된 segmentation network의 설계는 큰 resolution 이미지에서 작은 포면 defect를 탐지하는데 초점을 맞춘다. 이것을 이루기 위해, 네트워크는 2개의 중요한 필요를 바탕으로 설계된다.
(a) 높은 resolution 이미지에서 큰 수용 필드 크기 필요
(b) 작은 feature 세부사항을 잡기 위한 필요
이는 관련된 작업(Racki et al 2018)과 비교하여 구조의 몇개가 눈에 띄는 변화 결과를 얻는다.
첫번째, 추가적인 다운샘플링 레이어와 더 높은 레이어의 큰 kernel 크기는 명백하게 수용 필드 크기를 증가시키는 것에 사용된다.
두번째, 각각의 다운 샘플링 사이의 레이어 수는 구조의 낮은 section에서 더 적은 레이어를 가지도록, 높은 section에서 더 많은 레이어를 가지도록 바꾸었다. 이것은 큰 수용 필드 크기를 가진 features의 수용량을 증가시킨다.
마지막으로, 다운 샘플링은 큰 stride의 컨볼루션 대신에 max-pooling을 사용했다. 이것은 작아지는 것을 확실하게하면서 중요한 디테일을 다운 샘플링 과정에서 살린다. 이것은 특히 추가적인 다운 샘플링 레이어를 가진 구조에 중요하다.
Decision network
Decision network는 Segmentation network의 출력을 사용한다. 1024 channel을 가진 segment 네트워크의 마지막 컨볼루션 레이어와 1채널을 가진 segment의 output을 concatenate한다. 이는 1025 채널을 가지게 된다.
이후에 max-pooling, 5X5 컨볼루션을 해준다. 이 두 레이어를 3번 반복해주는데, 각각 8, 16, 32의 channel을 갖게 된다. 채널 수는 features resolution이 줄어들수록 증가하므로, 계산량은 같다.
마지막 컨볼루션 레이어는 원본의 크기보다 64배가 작다. 마지막으로, 네트워크는 global maximum, average pooling을 통해 64개의 neurons 결과를 낸다.
또한, segment 출력맵의 global maximum, average pooling을 concatenate하여 2개의 neurons 결과를 낸다. 이는 segmentation map이 이미 완전한 detection을 확실하게 하는 경우 shortcut을 제공하기 위함이다.
이 네트워크의 결과는 66개의 출력 neurons을 linear weights로 합쳐 final output neuron을 낸다.
decision network는 2개의 중요한 원칙을 따른다.
첫 번째, 크고 복잡한 형태를 위한 적절한 수용력은 몇개의 컨볼루션, down-sampling 레이어를 통해 정해진다. 이것은 네트워크가 local 크기뿐 아니라 global 크기를 잡을 수 있게 한다.
두 번째, decision 네트워크는 segmentation 네트워크의 1X1 컨볼루션 전의 마지막 convolution을 사용할 뿐 아니라, segmentation 네트워크 output map을 사용한다. 이것은 네트워크가 많은 feature map을 사용하는 것을 피하기 위한 shortcut이다. 이것은 또한 많은 수의 파라미터들의 과적합을 줄인다.
shortcuts은 2단계로 실행된다
-
decision 네트워크 초기에 segmentation 출력 맵이 decision 네트워크의 몇개의 컨볼루션으로 전해진다.
-
decision 네트워크의 끝에서 segmentation 출력맵의 global average, maximum value가 마지막 fully connected layer의 input으로 더해진다.
decision 네트워크 시작 부분의 shortcut, 몇개의 down sampling을 포함한 컨볼루션이 기존 방법과 차이점이다.
⇒ 복잡성(complexity), global한 크기 잡는 데에 장점이 있음
Learning
segmentation network는 binary-segmentation문제로 다뤄진다. 따라서 분류는 각 이미지 픽셀 단위에서 수행됩니다. 훈련시 두개의 training 접근이 있다.
(a) 최소제곱오차(MSE)를 사용한 회귀(regression)사용
(b) 교차엔트로피오차(cross-entropy)를 사용한 이항 분류
모델은 다른 분류 데이터셋에서 미리 훈련되지 않고, 대신에 정규 분포를 사용하여 랜덤하게 시작된다.
decision 네트워크는 교차엔트로피오차(cross-entropy)를 사용한다. 학습은 segmentation 네트워크와 분리적으로 일어난다.
일단 segmentation 네트워크는 독립적으로 훈련되고, 그 다음 segmentation 네트워크의 가중치 고정되고, decision 네트워크 레이어가 훈련된다. decision 네트워크만 따로 훈련하면서 segmentation의 과적합을 방지한다.
GPU 메모리의 제한으로 decision 네트워크에서 batch size는 배치당 1~2개 sample을 사용한다.
segmentation, decision 네트워크를 동시에 학습하는 것도 고려된다. loss function의 형태는 이런 경우에 중요하다. 두 개의 네트워크 모두 cross entropy를 사용할 대 동시에 학습이 가능하다. loss는 다른 scope에 적용되기 때문에 (픽셀 단위, 이미지 단위), 두 layers의 정확한 정규화는 중요한 역할을 한다. 마지막으로, 두개의 loss를 적절하게 정규화 하는 것은 분리된 학습 매커니즘을 사용하는 데에 적용하는 게 어렵고, 성능 향상을 얻는 것도 어렵다.
따라서 두 네트워크를 각각 학습하는 것이 좋다.
Inference
제안된 네트워크로 입력은 회색 이미지이다. 네트워크 구조는 입력 사이즈와 독립적이고, fully convolutional network와 유사하다. fully connected layers은 feature 맵에 사용되지 않고, 추가된 차원 이후에 global average, max pooling이 사라지기 때문이다.
입력 이미지 resolution: 1408X512, 704X256
제안된 네트워크 모델은 2개의 결과를 가진다.
첫번째 결과는 segmentation mask이고, 입력 픽셀의 8X8 그룹 defect의 확률이다.; 그러므로 결과 resolution은 입력의 1/8 resolution을 가진다.
high resolution 이미지에서 8X8 픽셀 블록 분류 이후에 output map은 원래 크기로 보간된다.
두 번째 결과는 [0, 1] 사이 범위의 확률이다. 이것은 이미지에 defect가 있을 확률을 나타낸다.
Segmentation and decision network evaluation
제안된 네트워크는 산업 제품의 표면 crack 탐지를 평가한다. 이 부분은 데이터셋의 세부사항을 나타내고 그 다음에 평가와 결과의 세부사항을 나타낸다.
The Kolektor surface-defect dataset
공식적으로 surface defects를 라벨링한 실제 이미지가 없기 때문에, KolektorSDD가 만들어졌다. 이 데이터셋은 defect가 있는 전기 정류자 이미지로 구성된다. 이것은 Kolektor Group이 주석 처리했다.
구체적으로, 미세한 부분 혹은 균열이 전기 정류자에 내장된 플라스틱 표면에서 관찰된다. 각 정류자의 표면 부분은 8개의 non-overlapping 이미지로 캡처된다.
이미지는 1408X512 픽셀의 해상도를 가진다. 데이터셋은 52개의 defect가 있는 정류자가 포함되며, 347개의 이미지는 defect가 없는 표면이미지이다.
총 데이터셋 이미지는 399개이다. 각 이미지는 픽셀 단위의 annotation mask가 제공된다.
그림 3에 데이터셋 이미지가 나타나있다.
데이터셋은 다른 종류로 주석처리 된다. 따라서 다른 정확도의 주석으로 제안한 모델을 평가할 수 있다. Annotation 정확도는 시간, 노동 비용을 줄이기 위해 산업 환경에서 중요하다.
이런 목적에서, 다른 커널 크기(5, 9, 13, 17 픽셀)을 사용한 형태론적 작용(morphological operation)으로 원래 annotation을 팽창시켜 4개의 추가 annotation을 만들었다.
그림 4에 모든 annotation을 묘사했다.
Experiments
제안된 네트워크는 다른 훈련 세팅에서 평가되는데, 이것은 다른 종류의 주석, 입력 데이터 회전, segmentation 네트워크의 다른 손실함수를 포함한다.
총 4개의 평가 기준이 있다:
- 5개의 주석 종류
- 2개의 segmentation 네트워크의 loss function 종류 (MSE, cross entropy)
- 입력 이미지의 크기 (전체 크기, 절반 크기)
- 회전 없는 입력 이미지, 90% 회전된 입력 이미지
각각 네트워크의 4가지 항목을 평가할 수 있다.
- 다른 종류의 주석: 주석 정확도의 영향
- 입력 이미지 크기 차이: 낮은 계산 비용에서 분류 성능
- 손실 함수 차이와 입력 이미지 회전에 따른 영향
평가를 목적으로, 표면 결함 탐지는 이항 분류 문제로 접근된다. 결과는 defect 유, 무로 결정된다. segmentation network의 픽셀 단위의 에러는 측정하지 않는데, 이것은 산업 현장에서 치명적이지 않기 때문이다. 대신에 이미지당 binary image classification error가 측정된다. segmentation 결과는 눈으로 확인하기 위해서만 사용된다.
Performance metrics
평가는 3개 폴더 교차 검증으로 수행된다. 같은 제품의 모든 이미지는 같은 폴더에 들어가 있고, 그러므로 훈련과 평가 세트에서 동시에 절대 일어나지 않는다.
모든 평가 네트워크는 3개 분류 측정 기준을 가진다:
(a) 평균 정확도 (average precision; AP)
(b) defect가 없는 것을 판단하지 못함 (false negatives; FN)
(c) defect가 있는 것을 판단하지 못함 (false positives; FP)
positive 샘플은 defect가 보이는 이미지로 추론되고, negative 샘플은 defect가 안 보이는 이미지로 추론된다.
AP는 FN, FP보다 정확한데, 그 이유는 사전 평가 곡선에서 지역 단위로 계산되고 단일 값의 다른 threshold 값에서 모델의 성능을 얻기 때문이다.
반면에, 잘못 분류된 수(FP, FN)는 분류 점수에 적용된 특정한 임계값에 의존한다. 최상의 F검증을 얻는 임계값에서 잘못된 분류를 기록했다.
AP는 ROC curve(AUC)보다 많은 defect 없는 샘플 수를 가진 데이터세트에서 정확도가 높기 때문에 사용되었다.
Implementation and learning details
네트워크는 텐서플로우 프레임워크에서 실행되며, 두 네트워크는 모멘텀이 없는 확률적 경사 하강(stochastic gradient descend)을 사용해 훈련된다. 학습률은 MSE에서 0.005, cross-entropy loss에서 0.1이다. 이미지 크기가 커서 GPU 메모리 한계 때문에, 배치 크기는 1개의 이미지이다.
학습 과정에서 학습 샘플 수는 랜덤으로 선택된다; 하지만, defect, non defect 이미지가 균형있게 관찰되도록 선택 과정이 수정된다. 이것은 짝수 반복에서 defect를 가진 이미지를 얻고, 홀수 반복에서 defect가 없는 이미지를 얻는 방법이다. defect가 없는 이미지가 8배 더 많기 때문에, defect가 있는 이미지가 반복되서 사용될 수 있다.
두 네트워크는 6600번까지 학습한다. 한 폴더에 있는 훈련 셋 당 33개의 defect 이미지를 가지고, defect와 non defect 이미지를 각 단계마다 번갈아가며, 이를 100 epoch 수행한다.
⇒ 33 X 2(defect 유,무) X 100 = 6600
각 epoch는 모든 defect 이미지가 최소 한번 관찰될 때 끝난 것을 간주된다. (non defect 이미지는 필수적으로 관찰될 필요는 없다.)
Segmentation and decision network
그림 5의 그래프는 이미지 크기, 이미지 회전, 다른 annotation 종류, 다른 loss function에 따른 결과를 보여준다.
- full resolution 이미지 결과가 half resolution 이미지 결과보다 우수하다.
- dilate=5 (kernel size 5X5), cross-entropy loss function, full resolution 이미지, 회전 없는 이미지가 가장 좋은 성능을 가진다.
⇒ AP: 99.9%, FP: 0, FN: 1
다음으로 개별적인 학습 세팅 환경이 평가된다.
(a) segmentation 네트워크의 MSE에서 cross-entropy 손실 함수로 변환
(b) 전체 이미지 resolution에서 half resolution으로 변환
(c) 회전 없는 이미지에서 90도 회전 이미지로 변환
전체 실험에서 평균낸 AP의 향상은 그림 6에 기록되어 있다. 구체적인 세팅 환경 변화의 결과는 모든 세팅의 모든 배열의 첫번째로 계산된 AP, 하나의 세팅 차이만을 가진 두 실험 사이의 AP 차이에 의해 얻어진다. (그림 5) 표준 편차는 +방향, -방향으로 분리되어 기록되었다.
Loss function
MSE와 cross-entropy 손실 함수를 그림 5에서 비교했다. cross-entropy 손실 함수 사용이 더 성능이 좋다. AP 배열과 FP/FN수에서 보여지며, 그림 6에서 모든 다른 세팅 실험을 평균 낸 cross entropy 향상 결과를 볼 수 있다. 평균적으로, cross entropy는 7%p 향상된 AP를 얻는다.
Image resolution
이미지의 resolution을 낮춘 네트워크는 5%p 나쁜 AP를 얻는 것을 그림 6에서 볼 수 있다. 그림 5를 보면 작은 이미지 사이즈는 cross entropy에서는 영향이 없지만 MSE로 훈련하면 부정적인 결과를 갖게 된다. cross entropy는 이미지 resolution에 둔감하거나 근소한 차이로 더 나은 결과를 얻는다. (1% 향상된 AP)
Image rotation
랜덤하게 회전한 이미지는 유용하거나 뛰어난 성능 향상이 없다. 몇몇의 경우에서 1%p가 향상되지만; 다른 경우에는 성능이 매우 많이 떨어진다.
Annotation types
그림 5에서 다른 종류의 annotation을 비교했을 때, 작은 annotation으로 휸련했을 때 (original 또는 작은 커널 사이즈로 키웠을 때)와 약간 부정적 영향을 보인다. 전체적으로 annotation크기가 클 때 좋은 결과를 얻는다.
Contribution of the decision network
decision network의 성능은 이전의 segmentation network와 비슷하게 측정한다. 대신에, 간단한 2차원 descriptor과 로지스틱 회귀를 적용했다. 2차원 descriptor은 segmentation 출력 맵의 global max와 average pooling으로 만들어진다. 이것은 로지스틱 회귀를 위한 피쳐로 사용되고, 네트워크가 이미 훈련된 이후에 segmentation네트워크로부터 분리되어 학습된 것이다.
결과가 그림 7에 나와있다. cross entropy손실 모델에 초점을 맞추며, segmentation 네트워크만 보았을 때 가장 좋은 case는 dilate=9인 annotation에서 AP=98.2%(3.6%p증가), FP=0, FN=4를 가진다.
decision network가 포함되면 이상적인 threshold값에서 잘못된 분류가 4개에서 2개로 줄어든다.
이 결과는 decision network의 중요성을 알려준다. 간단한 픽셀 단위의 결과 segmentation은 defect를 예측하는 데에 충분한 정보를 가지지 않는다. 반면에 제안된 decision 네트워크는 마지막 segmentation 레이어의 feature도 얻고, decision layer을 추가하여 feature에서 noise를 제거한다. decision 네트워크의 추가적인 다운 샘플링은 수용 필드 크기를 증가시키고, defect의 전체적인 크기를 잡을 수 있게 해주기 때문에 성능이 향상된다. 전체적인 형태는 분류에서 중요하지만, 픽셀 단위의 segmentation에서는 중요하지 않다.
Required precision of the annotation
이전 섹션에서 큰 annotation이 작은 것보다 더 성능이 좋다는 것을 증명했다.
우리는 추가적으로 2가지 annotation을 실험했다.
(a) bounding box의 큰 annotation
(b) 회전된 굵은 annotation
그림 8에서 볼 수 있다.
이는 작업자를 위한 시간 소모를 줄이고, 이것은 산업 환경에서 중요하다.
그림 9에 결과가 나와있다. cross entropy loss function을 사용한 결과이다.
큰 annotation이 작은 것보다 더 성능이 좋음을 볼 수 있다. (a)번 방법은 AP=98.7%, 잘못된 분류: 3개이고 (b)번 방법은 AP=99.7%, 잘못된 분류:2개 이다.
작은 이미지 resolution으로 실험했을 때 잘못된 분류 수는 같고 AP도 유사했다.
이전 섹션에서, dilated annotation 중 가장 좋은 성능이 AP=99.9%, 잘못된 분류: 1개였던 것을 비교하며 성능이 약간 떨어졌다. 하지만, annotation 작업에 소요되는 시간을 고려했을 때, (b)번 방법도 성능 loss가 최소한인 실현가능한 방법이다.