如何对中文古籍中的生僻字进行分词？一些属于Unicode扩展区汉字会被过滤掉 #1068

gwisdomroof · 2024-08-07T13:01:59Z

在用IK分词器处理中文古籍时，发现它会自动过滤一些属于Unicode扩展区的生僻字，不知要如何解决？

以字符串“习𮊸𨻸𰄊𰶃”为例，如下：

期望这些汉字都能正确分词。

Versions: Elasticsearch 7.17.9（Docker）

yangzhongke · 2024-08-27T19:33:12Z

新PR已经解决这个问题，请更新
#1071
请验证后close这个issue

yangzhongke mentioned this issue Aug 21, 2024

支持由两个char组成的Surrogate Pair（比如生僻字、自造字、emoji等） #1071

Merged

Provide feedback