2021-05-12 14:32:11
Ubuntu下安裝Stanford CoreNLP
Stanford CoreNLP提供了一系列自然語言分析工具。它能夠給出基本的詞形,詞性,不管是公司名還是人名等,格式化的日期,時間,量詞,並且能夠標記句子的結構,語法形式和字詞依賴,指明那些名字指向同樣的實體,指明情緒,提取發言中的開放關係等。
很多自然語言處理的任務都需要stanfordcorenlp將進行文字處理。在Linux環境下安裝stanfordcorenlp也比較簡單。
首先需要安裝Java執行環境,以Ubuntu 12.04為例,安裝Java執行環境僅需要兩步:
sudo apt-get install default-jre
sudo apt-get install default-jdk12
然後下載Stanford coreNLP 包:
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip
unzip stanford-corenlp-full-2018-02-27.zip
cd stanford-corenlp-full-2018-02-27/12345
也可以去stanford corenlp的官網上去下載安裝包,windows跟linux下都是一樣的。
設定環境變數:
我們需要Stanford corenlp來把資料分詞。
把下列這行程式碼加到你的.bashrc裡面(vim .bashrc)
export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1
把/path/to/替換為你儲存stanford-corenlp-full-2016-10-31的地方的路徑
安裝:
sudo pip3 install stanfordcorenlp1
這裡如果你使用python2,就需要
sudo pip2 install stanfordcorenlp1
處理中文還需要下載中文的模型jar檔案,然後放到stanford-corenlp-full-2018-02-27根目錄下即可
wget http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar1
如何檢查自己是否裝好了stanfordcorenlp
進入python2或者python3
python2
from stanfordcorenlp import StanfordCoreNLP123
能成功匯入不報錯,就是安裝成功了。
最後檢查是否能正常使用:
執行下列程式碼:
echo "Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer1
你會看到下列輸出:
Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456
這樣就安裝成功了。
相關文章