新词挖掘的左右邻字丰富程度和内部凝聚程度参数阈值可以自定义吗 #68

zaobao · 2021-02-28T06:50:28Z

我看使用方法里没有设置这两个阈值的参数
这两个参数是不可变的吗

corpus: 必需，file open()、database connection或list
example:corpus = open(file_name, 'r', encoding='utf-8')
corpus = conn.execute(query)
corpus = list(***)
top_k: float or int,表示短语抽取的比例或个数
chunk_size: int,用chunksize分块大小来读取文件
min_n: int,抽取ngram及以上
max_n: int,抽取ngram及以下
min_freq: int,抽取目标的最低词频

top_k是按照词频排序，还是按照左右邻字丰富程度或者内部凝聚程度排序

zaobao · 2021-02-28T06:54:01Z

懒得翻源码了，不知道我理解的对不对:)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

新词挖掘的左右邻字丰富程度和内部凝聚程度参数阈值可以自定义吗 #68

新词挖掘的左右邻字丰富程度和内部凝聚程度参数阈值可以自定义吗 #68

zaobao commented Feb 28, 2021

zaobao commented Feb 28, 2021

新词挖掘的左右邻字丰富程度和内部凝聚程度参数阈值可以自定义吗 #68

新词挖掘的左右邻字丰富程度和内部凝聚程度参数阈值可以自定义吗 #68

Comments

zaobao commented Feb 28, 2021

zaobao commented Feb 28, 2021