Ubuntu下安裝Stanford CoreNLP

2020-06-16 16:44:48

Stanford CoreNLP提供了一系列自然語言分析工具。它能夠給出基本的詞形，詞性，不管是公司名還是人名等，格式化的日期，時間，量詞，並且能夠標記句子的結構，語法形式和字詞依賴，指明那些名字指向同樣的實體，指明情緒，提取發言中的開放關係等。

很多自然語言處理的任務都需要stanfordcorenlp將進行文字處理。在Linux環境下安裝stanfordcorenlp也比較簡單。

首先需要安裝Java執行環境，以Ubuntu 12.04為例，安裝Java執行環境僅需要兩步：

sudo apt-get install default-jre
sudo apt-get install default-jdk12

然後下載Stanford coreNLP 包：

wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip

unzip stanford-corenlp-full-2018-02-27.zip

cd stanford-corenlp-full-2018-02-27/12345

也可以去stanford corenlp的官網上去下載安裝包，windows跟linux下都是一樣的。

設定環境變數：

我們需要Stanford corenlp來把資料分詞。
把下列這行程式碼加到你的.bashrc裡面(vim .bashrc)

export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1

把/path/to/替換為你儲存stanford-corenlp-full-2016-10-31的地方的路徑

安裝：

sudo pip3 install stanfordcorenlp1

這裡如果你使用python2，就需要

sudo pip2 install stanfordcorenlp1

處理中文還需要下載中文的模型jar檔案，然後放到stanford-corenlp-full-2018-02-27根目錄下即可

wget http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar1

如何檢查自己是否裝好了stanfordcorenlp

進入python2或者python3

python2

from stanfordcorenlp import StanfordCoreNLP123

能成功匯入不報錯，就是安裝成功了。

最後檢查是否能正常使用：

執行下列程式碼：

echo "Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer1

你會看到下列輸出：

Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456

這樣就安裝成功了。