Why are tokens with underscore or hyphen ignored in YakeKeywordExtraction() annotator? #9022

a-kliuieva · 2022-06-05T23:38:48Z

a-kliuieva
Jun 5, 2022

I have a Spark dataframe input_df:

+---+------------------------------------------------------------------------+
| id|                                                                  object|
+---+------------------------------------------------------------------------+
|  1|sun, solar_system, solar_system, solar_system, venus, solar_system, mars|
|  2|planet,  milky_way,  milky_way, moon,  milky_way,  milky_way,  milky_way|
+---+------------------------------------------------------------------------+

I want to extract keywords for each id using YakeKeywordExtraction() annotator.
For this I use the following pipeline:

documentAssembler = DocumentAssembler() \
    .setInputCol("object") \
    .setOutputCol("doc_object")
tokenizer = Tokenizer() \
    .setInputCols(["doc_object"]) \
    .setOutputCol("token_object") \
    .setContextChars([","]) 
#    .setExceptions(["_"])
yake_keywords = YakeKeywordExtraction() \
    .setInputCols(["token_object"]) \
    .setOutputCol("keywords_object") \
    .setThreshold(0.5) \
    .setMaxNGrams(1) \
    .setNKeywords(2) \
    .setWindowSize(2)
finisher = Finisher() \
    .setInputCols(["keywords_object"]) \
    .setOutputCols(["keywords_object"]) \
    .setCleanAnnotations(False) \
    .setOutputAsArray(True)

pipeline = Pipeline().setStages([
    documentAssembler,
    tokenizer,
    yake_keywords,
    finisher
])

yake_df = pipeline.fit(input_df).transform(input_df)
yake_df.select('token_object').show(truncate = False)

result_df = yake_df.select('id', 'keywords_object')
result_df = result_df.withColumn('keywords_object', F.array_distinct("keywords_object"))

Results obtained:

|token_object|
|[{token, 0, 2, sun, {sentence -> 0}, []}, {token, 3, 3, ,, {sentence -> 0}, []}, {token, 5, 17, solar_system,, {sentence -> 0}, []}, {token, 19, 31, solar_system,, {sentence -> 0}, []}, {token, 33, 45, solar_system,, {sentence -> 0}, []}, {token, 47, 51, venus, {sentence -> 0}, []}, {token, 52, 52, ,, {sentence -> 0}, []}, {token, 54, 66, solar_system,, {sentence -> 0}, []}, {token, 68, 71, mars, {sentence -> 0}, []}]|
|[{token, 0, 5, planet, {sentence -> 0}, []}, {token, 6, 6, ,, {sentence -> 0}, []}, {token, 9, 18, milky_way,, {sentence -> 0}, []}, {token, 21, 30, milky_way,, {sentence -> 0}, []}, {token, 32, 35, moon, {sentence -> 0}, []}, {token, 36, 36, ,, {sentence -> 0}, []}, {token, 39, 48, milky_way,, {sentence -> 0}, []}, {token, 51, 60, milky_way,, {sentence -> 0}, []}, {token, 63, 71, milky_way, {sentence -> 0}, []}]     |

+---+---------------+
|id |keywords_object|
+---+---------------+
|1  |[sun, venus]   |
|2  |[planet, moon] |
+---+---------------+

It is obvious that predominant tokens solar_system and milky_way are ignored (a similar situation if a hyphen or space is used instead of an underscore).. But why and how to deal with this?
Thanks a lot for any advice!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Why are tokens with underscore or hyphen ignored in YakeKeywordExtraction() annotator? #9022

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

Why are tokens with underscore or hyphen ignored in YakeKeywordExtraction() annotator? #9022

a-kliuieva Jun 5, 2022

Replies: 0 comments

a-kliuieva
Jun 5, 2022