새 버전의 모델에 맞게 readme 및 이미지 업데이트

kakao · Jun 17, 2019 · 4d92033 · 4d92033
1 parent cbfe6d4
commit 4d92033
Show file tree

Hide file tree

Showing 5 changed files with 16 additions and 0 deletions.
diff --git a/.github/doc/khaiii_for_space_error.pptx b/.github/doc/khaiii_for_space_error.pptx
diff --git a/.github/img/network.pptx → .github/doc/network.pptx b/.github/img/network.pptx → .github/doc/network.pptx
diff --git a/.github/img/multi-task-learning.png b/.github/img/multi-task-learning.png
diff --git a/.github/img/network.png b/.github/img/network.png
diff --git a/README.md b/README.md
@@ -22,18 +22,34 @@ CNN 모델에 대한 상세한 내용은 [CNN 모델](https://github.com/kakao/k
 성능
 ----
 ### 정확도
+
+#### v0.3
 CNN 모델의 주요 하이퍼 파라미터는 분류하려는 음절의 좌/우 문맥의 크기를 나타내는 win 값과, 음절 임베딩의 차원을 나타내는 emb 값입니다. win 값은 {2, 3, 4, 5, 7, 10}의 값을 가지며, emb 값은 {20, 30, 40, 50, 70, 100, 150, 200, 300, 500}의 값을 가집니다. 따라서 이 두 가지 값의 조합은 6 x 10으로 총 60가지를 실험하였고 아래와 같은 성능을 보였습니다. 성능 지표는 정확률과 재현율의 조화 평균값인 F-Score입니다.
 
 ![](.github/img/win_emb_f.png)
 
 win 파라미터의 경우 3 혹은 4에서 가장 좋은 성능을 보이며 그 이상에서는 오히려 성능이 떨어집니다. emb 파라미터의 경우 150까지는 성능도 같이 높아지다가 그 이상에서는 별 차이가 없습니다. 최 상위 5위 중 비교적 작은 모델은 win=3, emb=150으로 F-Score 값은 97.11입니다. 이 모델을 large 모델이라 명명합니다.
 
+#### v0.4
+[띄어쓰기 오류에 강건한 모델을 위한 실험](https://github.com/kakao/khaiii/wiki/%EB%9D%84%EC%96%B4%EC%93%B0%EA%B8%B0-%EC%98%A4%EB%A5%98%EC%97%90-%EA%B0%95%EA%B1%B4%ED%95%9C-%EB%AA%A8%EB%8D%B8%EC%9D%84-%EC%9C%84%ED%95%9C-%EC%8B%A4%ED%97%98)을 통해 모델을 개선하였습니다. v0.4 모델은 띄어쓰기가 잘 되어있지 않은 입력에 대해 보다 좋은 성능을 보이는데 반해 세종 코퍼스에서는 다소 정확도가 떨어집니다. 이러한 점을 보완하기 위해 base 및 large 모델의 파라미터를 아래와 같이 조금 변경했습니다.
+
+* base 모델: win=4, emb=35, F-Score: 94.96
+* large 모델: win=4, emb=180, F-Score: 96.71
+
 
 ### 속도
+
+#### v0.3
 모델의 크기가 커지면 정확도가 높아지긴 하지만 그만큼 계산량 또한 많아져 속도가 떨어집니다. 그래서 적당한 정확도를 갖는 모델 중에서 크기가 작아 속도가 빠른 모델을 base 모델로 선정하였습니다. F-Score 값이 95 이상이면서 모델의 크기가 작은 모델은 win=3, emb=30이며 F-Score는 95.30입니다.
 
 속도를 비교하기 위해 1만 문장(총 903KB, 문장 평균 91)의 텍스트를 분석해 비교했습니다. base 모델의 경우 약 10.5초, large 모델의 경우 약 78.8초가 걸립니다.
 
+#### v0.4
+모델의 크기가 커짐에 따라 아래와 같이 base, large 모델의 속도를 다시 측정했으며 v0.4 버전에서 다소 느려졌습니다.
+
+* base 모델: 10.8 -> 14.4
+* large 모델: 87.3 -> 165
+
 
 사용자 사전
 ----