-
Notifications
You must be signed in to change notification settings - Fork 5
/
work.txt
107 lines (77 loc) · 4.96 KB
/
work.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
1. 사전 구축을 위해 말뭉치 분석
1) 말뭉치 양식 정의 ( json )
2. 결정 사항
- 품사 정의 어떤것으로 할지 ( 세종, rouzenta, ?? )
- 이미 많이 공개 된 품사로 가는게 좋을듯.
3. 추출 형태소에 대한 중의성 해소 방안
(사과 등. 앞/뒤 형태소를 보고 판단 최종 단어 사전의 결과를 매칭?)
- 사전 단어 등록 후 말뭉치에서 정확한 사전 단어를 사용해서 해소..?
4. 굴절 어절 사전 정의 방안
1) 기본 사전 엔트리들의 규칙 조합 방법 - 사전 용량이 커짐
2) 표층어를 기준으로 한 사전 구축 - 재현률 떨어짐
- 기분석 부분 어절 사전 -> 범위 선정의 이슈...
2017-05-10
model 생성 & 사용
- protobuf 사용
- 메모리 효율화 필요
정확률 측정 (어절별) 2017-05-10
- avgRatio : 0.85805833, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 2591689, elapsed time : 222753 ms
정확률 측정 (어절별) 2017-05-12
변경 이력 : irr_word 분석셋 변경
- avgRatio : 0.8680209, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 2468116, elapsed time : 213792 ms
정확률 측정 (어절별) 2017-05-12
변경 이력 : outer 연결 시 가중치 값 부여
- avgRatio : 0.91877884, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 1424183, elapsed time : 241644 ms
- avgRatio : 0.9187511, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 1425130, elapsed time : 222653 ms
정확률 측정 (어절별) 2017-05-19
변경 이력 : 소스 리펙토링, findDeep 제거
- avgRatio : 0.9047498, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 1675372, elapsed time : 254003 ms
정확률 측정 (어절별) 2017-05-23
변경 이력 : dictionary, innerword fst 분리, 사전 단어 중복 (word, tag) 제거
avgRatio : 0.9051235, totalEojeolCnt : 11619618, totalEojeolErrorCnt : 1654172, elapsed time : 242345 ms
Benchmark Mode Cnt Score Error Units
AnalyzerPerfTest.testRead thrpt 10 59072.890 ± 2103.983 ops/s
변경 이력 : term keywords 구조 변경 (List -> Array), prev 파라메터 변경 (int -> Keyword), tag score 계산 시 dictionary 참조 제거
Benchmark Mode Cnt Score Error Units
AnalyzerPerfTest.testRead thrpt 10 70042.384 ± 1166.641 ops/s
변경 이력 : DictionaryProcessor addResults offset terms 구조 변경 (ArrayList -> LinkedList)
Benchmark Mode Cnt Score Error Units
AnalyzerPerfTest.testRead thrpt 10 71825.837 ± 296.118 ops/s
elastic docker
https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html#docker-prod-cluster-composefile
정확률 측정 (어절별) 2017-06-28
변경 이력 : train-set, test-set 분리, connection 연결 fst 도입, candidateSet 구조 변경, next 어절 참조
- test-set (10000) : avgRatio : 0.92134017, totalEojeolCnt : 120887, totalEojeolErrorCnt : 14802, elapsed time : 10373 ms
- test-set (107603) : avgRatio : 0.9188012, totalEojeolCnt : 1260126, totalEojeolErrorCnt : 158484, elapsed time : 73507 ms
- train-set (10000) : avgRatio : 0.97618335, totalEojeolCnt : 117243, totalEojeolErrorCnt : 4581, elapsed time : 15856 ms
- train-set(755440) : avgRatio : 0.97650033, totalEojeolCnt : 8857199, totalEojeolErrorCnt : 338679, elapsed time : 199564 ms
정확률 측정 (어절별) 2017-06-29
변경 이력 : 정확률 측정 방식 변경 -> 어절 단위(어절내 한개라도 에러면 에러로), 형태소 단위(seq 체크)
문장 10000 건
- train-set
eojeol accuracyRatio : 96.77063, totalEojeolErrorCnt : 3802, totalEojeolCnt : 117732
morph accuracyRatio : 98.11708, totalMorphErrorCnt : 4975, totalMorphCnt : 264217
- test-set
eojeol accuracyRatio : 89.634125, totalEojeolErrorCnt : 12531, totalEojeolCnt : 120887
morph accuracyRatio : 93.34344, totalMorphErrorCnt : 17877, totalMorphCnt : 268562
정확률 측정 2017-07-04
변겨 이력 : 품사 전이 확률값 변경, 가중치 변경..
- test-set
eojeol accuracyRatio : 90.33726, totalEojeolErrorCnt : 11681, totalEojeolCnt : 120887
morph accuracyRatio : 93.77127, totalMorphErrorCnt : 16728, totalMorphCnt : 268562
정확률 측정 2017-08-07
변겨 이력 : 로직 변경 mecab 소스 참고
- train-set
eojeol accuracyRatio : 95.68468, totalEojeolErrorCnt : 5039, totalEojeolCnt : 116770
morph accuracyRatio : 97.539474, totalMorphErrorCnt : 6437, totalMorphCnt : 261611
- test-set
eojeol accuracyRatio : 93.27885, totalEojeolErrorCnt : 8125, totalEojeolCnt : 120887
morph accuracyRatio : 95.32659, totalMorphErrorCnt : 12551, totalMorphCnt : 268562
정확률 측정 2017-08-09
변경 이력 : 소스 리펙토링 학습, 테스트 데이터 9:1 설정
- train-set
eojeol accuracyRatio : 95.84418, totalEojeolErrorCnt : 4774, totalEojeolCnt : 114875
morph accuracyRatio : 97.79718, totalMorphErrorCnt : 5687, totalMorphCnt : 258169
-- test-set
eojeol accuracyRatio : 93.61597, totalEojeolErrorCnt : 7743, totalEojeolCnt : 121287
morph accuracyRatio : 96.66023, totalMorphErrorCnt : 8999, totalMorphCnt : 269450