首頁 > 軟體

Ubuntu下安裝Stanford CoreNLP

2020-06-16 16:44:48

Stanford CoreNLP提供了一系列自然語言分析工具。它能夠給出基本的詞形,詞性,不管是公司名還是人名等,格式化的日期,時間,量詞,並且能夠標記句子的結構,語法形式和字詞依賴,指明那些名字指向同樣的實體,指明情緒,提取發言中的開放關係等。

很多自然語言處理的任務都需要stanfordcorenlp將進行文字處理。在Linux環境下安裝stanfordcorenlp也比較簡單。

首先需要安裝Java執行環境,以Ubuntu 12.04為例,安裝Java執行環境僅需要兩步:

sudo apt-get install default-jre
sudo apt-get install default-jdk12

然後下載Stanford coreNLP 包:

wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip

unzip stanford-corenlp-full-2018-02-27.zip

cd stanford-corenlp-full-2018-02-27/12345

也可以去stanford corenlp的官網上去下載安裝包,windows跟linux下都是一樣的。

設定環境變數:

我們需要Stanford corenlp來把資料分詞。
把下列這行程式碼加到你的.bashrc裡面(vim .bashrc)

export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1

把/path/to/替換為你儲存stanford-corenlp-full-2016-10-31的地方的路徑

安裝:

sudo pip3 install stanfordcorenlp1

這裡如果你使用python2,就需要

sudo pip2 install stanfordcorenlp1

處理中文還需要下載中文的模型jar檔案,然後放到stanford-corenlp-full-2018-02-27根目錄下即可

wget http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar1

如何檢查自己是否裝好了stanfordcorenlp

進入python2或者python3

python2

from stanfordcorenlp import StanfordCoreNLP123

能成功匯入不報錯,就是安裝成功了。

最後檢查是否能正常使用:

執行下列程式碼:

echo "Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer1

你會看到下列輸出:

Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456

這樣就安裝成功了。


IT145.com E-mail:sddin#qq.com