Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有關中文摘要 #13

Open
playma opened this issue Nov 21, 2019 · 1 comment
Open

有關中文摘要 #13

playma opened this issue Nov 21, 2019 · 1 comment

Comments

@playma
Copy link

playma commented Nov 21, 2019

我看到了你們在這裡發佈的訊息,與把 Abstractive summarization 整合進 library 覺得非常好
https://chinesenlp.xyz/docs/text_summarization.html

一年前我在碩士期間研究了 Chinese summarization
這是我的 Paper

當初發現了 LCSTS 的資料集上有缺陷,在 training set 和 testing set 上有很大一部分的重複
聯繫 dataset 的作者,他後來發佈了 LCSTS2.0
但依然有重複的部分,我們提出了 LCSTS2.0-clean
且發表了 hybrid-word-character 的方法,在最原始版本的 LCSTS 資料集上 ROUGE score 達到快 60,但 LCSTS2.0-clean 上沒有這麼好,但也比其他的模型好。

這證明兩件事情

  1. 資料集必須使用 LCSTS2.0,比較能公平的比較 model
  2. hybrid-word-character 的方法確實是非常有用的

這是我的 paper
https://arxiv.org/abs/1802.09968

看到 DiDi 開源了非常多的項目,覺得很棒
希望能在這裡跟大家一起討論,謝謝

@playma
Copy link
Author

playma commented Nov 21, 2019

model 的訓練使用的都是 OpenNMT-py 的 repo 來實作
OpenNMT-py 是一個哈佛的專案

當初初期的成果,哈佛的教授 Alexander M. Rush 有聯繫我
將 model 放上他們的網站,後來最新的就沒有放上去了
但依然能夠透過 OpenNMT-py 輕易的搭建出像 paper 一樣的結果
http://opennmt.net/Models-py/#chinese

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant