GitPedia
Home/bab2min/Kiwi/Changelog
bab2min

bab2min/Kiwi

Kiwi(지능형 한국어 형태소 분석기)

30 Releases
Latest: 4d ago
v0.23.2Latest
bab2minbab2min·4d ago·June 11, 2026
GitHub

📦 버그 수정

  • Windows에서 모델 파일의 경로가 유니코드 문자를 포함할 때 로딩에 실패하는 버그 수정

📦 기능 추가

  • (실험적 기능) 분석 옵션에 `oovTotalConsistency`가 추가되었습니다. 이 옵션은 OOV 탐지 기능이 입력 텍스트 전체 내에서 일관되게 작동하도록 만들지만 분석 속도가 크게 느려집니다.
v0.23.1
bab2minbab2min·2mo ago·April 4, 2026
GitHub

📦 신규 기능

  • Arm NEON용 양자화 커널 구현. 이제 Arm NEON 아키텍처에서도 CoNg 모델 사용시 최적화된 커널을 사용하게 되어 전보다 분석속도가 20% 가량 향샹되었습니다.

📦 버그 수정

  • AVX-VNNI 최적화 커널에서 AVX512 명령어를 사용하여 오류가 발생하던 버그 수정
  • 문장 시작 위치의 1., 2., 3. 등이 종종 SB 대신 SN로 분석되는 오류 수정
  • Splitter 신규 구현체에서 종종 메모리 과다 사용하거나, 빈 결과값을 리턴하는 등의 문제를 해결
0.23.0v0.23.0
bab2minbab2min·3mo ago·March 16, 2026
GitHub

📋 Changes

  • OOV 탐지 기능 고도화
  • 길이에 기반한 규칙으로 OOV에 점수를 부여하는 기존 방식 외에, 경량 문자모델과 빈도 정보에 기반하여 OOV에 점수를 부여하는 새로운 방식이 추가되었습니다.
  • OOV 탐지 방식은 `Match::oov*` 인자를 통해 선택할 수 있습니다.
  • 오타 교정 방식 고도화
  • 오타 교정 기능 사용시 메모리 사용량이 일반 분석 시와 비슷한 수준으로 줄어들도록 최적화되었습니다.
  • 오타 교정 옵션을 Kiwi 인스턴스 생성 시점이 아니라 분석 시점에 전달하는 방식으로 변경되었습니다.
  • 이를 통해 이제 다어절 명사에 대해서도 오타 교정 기능이 지원됩니다.
0.22.2v0.22.2
bab2minbab2min·6mo ago·December 15, 2025
GitHub

📋 Changes

  • 사전에 등재되지 않은 단어를 분석할 때 종종 결과 형태소로 엉뚱한 문자열이 출력되는 버그 수정
0.22.1v0.22.1
bab2minbab2min·6mo ago·November 23, 2025
GitHub

📋 Changes

  • 접두문자열로 형태소를 탐색할 수 있는 `Kiwi::findMorphemesWithPrefix` 함수 추가
  • `findMorphemes`에서 미완성이거나 임시로 합성된 형태소 결과가 나오지 않도록 수정
  • CoNg의 유사 단어 검색 관련 함수에서 boundary check 추가
  • 누락되었던 v0.22.0의 C API 함수들을 보충
0.22.0v0.22.0
bab2minbab2min·7mo ago·November 16, 2025
GitHub

📋 Changes

  • 신기능
  • 방언 분석 기능 추가
  • 형태소에 방언 & 의미 번호 정보 추가
  • 버그 수정
  • CoNg 모델에서 사이시옷 분석이 제대로 안되던 버그 수정
  • 공백이 포함된 다어절 형태소 분석시 종종 크래시가 발생하던 현상 수정
  • 멀티스레딩 환경에서 형태소 분석 도중에 Kiwi의 config 값을 수정하여 오류가 발생할 수 있는 문제를 수정
  • 기타
  • + 2 more
0.21.0v0.21.0
bab2minbab2min·1y ago·May 1, 2025
GitHub

📋 Changes

  • 형태소 분석 모델 정확도 개선
  • 새로운 형태소 분석 모델인 CoNg (Contextual N-gram embedding)을 구현 (실험적 요소)
  • 컴파일러 요구사항을 C++17 지원으로 상향
0.20.4v0.20.4
bab2minbab2min·1y ago·March 8, 2025
GitHub

📋 Changes

  • `splitComplex` 옵션 사용시에도 종종 `어요/EF`가 `어/EF 요/JX`로 분할되지 않는 버그 수정
  • 오타 교정 사용시 특정 문자열에 대해 segmentation fault가 발생하는 버그 수정
0.20.3v0.20.3
bab2minbab2min·1y ago·December 17, 2024
GitHub

📋 Changes

  • 오타 교정 기능을 사용할 때 사용자 사전에 등록한 복합 명사가 인식되지 않는 버그 수정
0.20.2v0.20.2
bab2minbab2min·1y ago·November 20, 2024
GitHub

📦 버그 수정

  • SN이나 W 태그가 나타날 위치에서 종종 바로 앞의 문자열이 중복되어 엉뚱한 태그가 발생하는 버그 수정
0.20.1v0.20.1
bab2minbab2min·1y ago·November 3, 2024
GitHub

📦 버그 수정

  • #200 버그 수정
  • splitSaisiot, mergeSaisiot 사용시의 정확도 개선
  • saisiot 기능 추가 이후 GCC에서 Pretokenized Span을 사용할때 발생하는 segmentation fault 해결
  • 누락되었던 C API 상수 보완
0.20.0v0.20.0
bab2minbab2min·1y ago·October 29, 2024
GitHub

📦 신기능

  • 사이시옷을 위한 품사 태그인 Z_SIOT 추가
  • 사이시옷이 포함된 합성명사를 분할하거나, 사이시옷 앞뒤의 명사를 결합하여 출력하는 옵션 추가
0.19.1v0.19.1
bab2minbab2min·1y ago·October 18, 2024
GitHub

📦 버그 수정

  • 앞쪽의 특수 문자가 형태소와 잘못 결합하여 분석되는 버그 수정
  • 오타 교정을 켠 상태에서 PretokenizedSpan 혹은 blocklist를 사용할때 오류가 발생하는 버그 수정
  • XSM 태그가 종종 접두사 위치에 등장하는 버그 수정
  • `서툰`, `내민` 등의 형태가 명사로 잘못 분석되는 버그 수정
v0.19.0
bab2minbab2min·1y ago·October 3, 2024
GitHub

📦 신기능

  • 장음화 오타 정정 기능 추가(ex: 지인짜 -> 진짜)
  • 분석 속도 평균 30% 향상

📦 버그 수정

  • 순서 있는 글머리가 여럿 섞인 문장을 분석할 때 종결어미 `-다.`가 종종 SB 태그로 오분석되는 버그 수정

📦 기타

  • 제공되는 모델 파일의 경로가 `ModelGenerator/`에서 `models/base/`로 변경되었습니다.
  • 이 버전부터 Centos5, 6에 대한 지원이 제거되었습니다. (물론 소스코드를 통한 빌드는 여전히 가능합니다.)
v0.18.1
bab2minbab2min·1y ago·September 8, 2024
GitHub

📦 버그 수정

  • PreTokenizedSpan과 SPLIT_COMPLEX를 동시에 사용시 종종 빈 결과값이 나오던 버그(#176) 수정
  • 공백 없이 길게 이어진 텍스트를 분석할때 종종 std::length_error가 발생하던 오류(bab2min/kiwipiepy#172) 수정
  • 문장 분리 시 여는 따옴표가 종종 잘못된 문장에 붙던 버그(#181) 수정

📦 기능 추가

  • 출력을 호환자모로 통일하는 옵션인 `kiwi::Match::compatibleJamo` 추가
0.18.0v0.18.0
bab2minbab2min·1y ago·July 3, 2024
GitHub

📦 신기능

  • Pretokenized Span으로 동사를 지정했을 때 문맥에 따라 규칙성 여부(-R / -I)를 자동으로 탐지하도록 기능 개선
  • 이모지를 위한 신규 태그인 `W_EMOJI` 추가
  • 외국어 태그 개선: 유니코드 영역을 기반으로 각 문자가 어떤 언어의 문자 집합에 해당하는지를 보여주는 `TokenInfo::script` 멤버 변수 추가
  • emscripten를 통한 JavaScript/wasm binding 추가 (@RicBent, https://github.com/bab2min/Kiwi/pull/171 )

📦 버그 수정

  • Pretokenized Span이 잘못 지정되었을 경우 크래시가 발생하는 문제 수정

📦 기여자

  • 소중한 기여에 감사드립니다.
  • @RicBent
0.17.1v0.17.1
bab2minbab2min·2y ago·April 13, 2024
GitHub

📦 신기능

  • 연철에 대한 오타 교정 추가 (#159)

📦 버그 수정

  • 문장 분리 오류 수정 (#160)
0.17.0v0.17.0
bab2minbab2min·2y ago·March 9, 2024
GitHub

📋 Changes

  • `AutoJoiner`에서 결합 후 형태소들의 위치 정보를 반환하도록 개선
  • 공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
  • 공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
  • 약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(`multi.dict`)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 `BuildOption::loadMultiDict` 열거형 추가
  • `IOException`, `FormatException`가 추가되어 `Kiwi`가 좀 더 명확한 예외를 선택하여 던지도록 수정
  • 공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
  • 일련번호(`W_SERIAL`) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정
0.16.1v0.16.1
bab2minbab2min·2y ago·January 30, 2024
GitHub

📋 Changes

  • `-다.`로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
  • KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정
0.16.0v0.16.0
bab2minbab2min·2y ago·August 31, 2023
GitHub

📦 기능 추가/개선

  • 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & `Kiwi::analyze`에 `pretokenized` 인자 추가
  • 사용자 정의로 쓸 수 있는 `user0~4` 태그 추가
  • 순서 있는 글머리를 위한 `sb` 태그 추가
  • Java용 바인딩인 KiwiJava 제공 (실험적)

📦 버그 수정

  • 다양한 문장 분리 오류 수정
  • Full Changelog: https://github.com/bab2min/Kiwi/compare/v0.15.2...v0.16.0
v0.15.2
bab2minbab2min·3y ago·June 14, 2023
GitHub

📦 기능 개선

  • `Joiner::add`에서 결합시 띄어쓰기 포함 유무를 선택할 수 있는 옵션 인자 추가

📦 버그 수정

  • 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
  • U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정
0.15.1v0.15.1
bab2minbab2min·3y ago·May 7, 2023
GitHub

📋 Changes

  • `SwTokenizer` 기능 중 미완성이었던 기능들의 구현 완료
  • `SwTokenizer`, `UnigramSwTrainer`의 각종 버그 수정
0.15.0v0.15.0
bab2minbab2min·3y ago·March 22, 2023
GitHub

📦 기능 추가/개선

  • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 `splitComplex` 도입
  • 부사파생접사를 위한 `XSM` 태그 추가 및 이에 해당하는 형태소 `-이`, `-히`, `-로`, `-스레` 추가
  • 조사/어미에 덧붙는 받침을 위한 `Z_CODA` 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
  • 형태 분석 및 언어 모델 탐색 속도 최적화
  • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
  • 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
  • 문장 분리 성능 개선
  • `2010. 01. 01.` 와 같이 공백이 포함된 serial 패턴 처리 보강
  • + 2 more

📦 버그 수정

  • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
  • bab2min/kiwipiepy#111
  • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정
0.14.1v0.14.1
bab2minbab2min·3y ago·December 23, 2022
GitHub

📦 버그 수정 및 개선

  • 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결 (#114)
  • EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선 (bab2min/kiwipiepy#96)

📦 새로운 기능

  • SBG 모델 학습 편의를 위한 `HSDataset` 추가
  • macOS에서 컴파일 시 CMakeLists에서 CPU 아키텍처를 설정하는 옵션 추가
v0.14.0
bab2minbab2min·3y ago·September 1, 2022
GitHub

📦 기능 개선

  • 이르다(일렀다, 이르렀다)의 모호성 해소 (#54)
  • 연속된 숫자열을 처리하는 W_SERIAL 태그 추가 (#14)
  • 따옴표, 괄호의 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화 (#104)
  • 문장 분리 시 인용문으로 안긴 문장을 인식하도록 수정(bab2min/kiwipiepy#84)
  • `랬/댔/잖` 의 분석 정확도 개선
  • #110
  • 내장 오타 사전 `typo.dict` 추가. 내장 오타 사전의 로드 유무를 설정하는 옵션 `BuildOption::loadTypoDict` 추가

📦 버그 수정

  • #107
  • bab2min/kiwipiepy#90
  • Joiner의 결합 정확도 개선 (bab2min/kiwipiepy#91)
  • UTF16 Surrogate 영역의 문자열이 종종 잘못 쪼개져서 UnicodeError를 발생시키는 오류 수정
  • bab2min/kiwipiepy#92
  • `KiwiBuilder::addRule` 함수에서 일부 이형태가 누락되는 버그 수정 (bab2min/kiwipiepy#94)
Kiwi v0.13.1v0.13.1
bab2minbab2min·3y ago·July 5, 2022
GitHub

📦 버그 수정

  • `AutoJoiner`에 특정 문자열을 입력 시 크래시가 발생하는 버그 수정
Kiwi v0.13.0v0.13.0
bab2minbab2min·3y ago·June 27, 2022
GitHub

📦 신기능

  • 형태소 분석 과정에서 간단한 오타를 교정하는 기능 추가 (#76)
  • 장거리 형태소 간의 관계를 고려할 수 있는 SkipBigram 언어 모델 추가

📦 버그 수정

  • 공백이 있음에도 이를 고려하지 않고 강제로 붙여서 해석하는 오류 수정(ex: `다 갔다`)
Kiwi v0.12.0v0.12.0
bab2minbab2min·4y ago·May 10, 2022
GitHub

📦 신기능

  • 동사 '걷다'와 '묻다'의 모호성 해소 기능 추가
  • 동/형용사 형태소의 불규칙 활용 여부를 구분하는 자질 추가(#56)
  • `kiwi::setIrregular`, `kiwi::clearIrregular`, `kiwi::isIrregular` 함수를 통해 품사 태그에 불규칙 활용 여부 정보를 덧붙이거나 빼거나 확인할 수 있음
  • 불규칙 활용을 하는 동/형용사를 위한 품사 태그 `VV-I`, `VA-I`, `VX-I`, `XSA-I` 추가.
  • 형태소 분석 결과 중 각 형태소별 언어 모델 상의 점수를 확인할 수 있도록 `kiwi::TokenInfo`에 `score` 멤버 변수 추가
  • 형태소를 결합하여 원본 텍스트를 복원하는 클래스인 `kiwi::cmb::AutoJoiner` 추가 (#54)
  • 언어 모델 정확도 추가 개선

📦 버그 수정

  • 특정 상황에서 소수점이 포함된 숫자가 잘못 분석되는 오류 (#100)
  • 종결 어미 뒤에 조사가 있음에도 문장을 잘못 분리하는 오류 (#101)
  • 일부 결합된 형태소의 시작/끝 위치가 잘못 잡히는 오류
  • `있소`, `잇따라`, `하셔` 등의 형태가 잘못 분석되는 오류
Kiwi v0.11.2v0.11.2
bab2minbab2min·4y ago·April 14, 2022
GitHub

📦 변경 사항

  • 특수 문자가 섞인 텍스트 중 일부가 잘못 분석되는 버그 수정 (#97)
  • 특정한 패턴의 텍스트를 입력할 경우 분석 결과가 빈 배열로 나오는 버그 수정
  • 받침 정규화 기능(`normalizeCoda`)이 모든 받침에 대해 적용되었습니다.
  • Full Changelog: https://github.com/bab2min/Kiwi/compare/v0.11.1...v0.11.2
Kiwi v0.11.1v0.11.1
bab2minbab2min·4y ago·April 4, 2022
GitHub

📋 Changes

  • Windows 환경에서 한글이나 기타 유니코드를 포함한 경로에 위치한 모델을 읽지 못하는 버그 수정 (#87)
  • 이제 소수점, 자리 구분 쉼표가 섞인 숫자도 SN 품사태그로 제대로 분석됩니다. (#92)
  • 형태소 내에 포함된 공백 문자 처리를 조정할 수 있도록 `spaceTolerance`, `spacePenalty` 멤버 변수가 추가되었습니다.
  • 컴파일 경고를 발생시키는 코드 수정 (@mrchypark )