我们将构建一个简单的TensorFlow模型,作为有效概括训练数据的结果,该模型会将用户的评论分为正面还是负面。我们将需要用到ML库,当然除了Tensorflow本身之外,我们还需要其他<em>python</em>库和工具来开发我们的模型。1.
2021-05-28 06:00:23
文字分類是自然語言處理的一種應用,其重點是根據段落的內容將段落分組為預定義的類別,例如,對新聞類別進行分類,無論是體育,商業,音樂等。
從中將學到什麼?
One hot encoding
Word embedding
Neural network with an embedding layer
Evaluating and testing trained model
上面提到的概念是有關使用TensorFlow進行自然語言處理的基本知識。此外,您可以將它們應用於多個基於NLP的項目中。
我們將構建一個簡單的TensorFlow模型,作為有效概括訓練資料的結果,該模型會將使用者的評論分為正面還是負面。
我們將需要用到ML庫,當然除了Tensorflow本身之外,我們還需要其他python庫和工具來開發我們的模型。
1. Numpy
2. Matplotlib
3. Tensorflow
快速安裝
如果您尚未安裝這些庫,請使用pip快速安裝指南。安裝完所有元件後,我們現在就可以動手製作模型。
首先,我們需要匯入剛剛安裝在程式碼庫中的所有必需庫。
另外,資料集可以採用多種檔案格式(csv,json,sql)。
資料工程
該機器僅能理解數字,並且在訓練文字資料時不會改變。因此,為了能夠對其進行訓練,我們需要一種對文字資料集進行數字表示的方法。這就是熱編碼開始發揮作用的地方,並且Tensorflow提供了一種內建方法來幫助您。
填充
如果仔細看,您會發現它導致了大小不同的陣列。這是由於各個訓練資料的長度不同。
因此,我們需要確保我們的訓練資料項具有相等的長度來進行訓練。這就是為什麼我們需要進行填充以將其規範化為某個標準長度的原因。
填充將要做的是通過新增0來擴展長度小於標準長度的陣列以使其等於標準長度,並刪除那些超出長度的元素。
現在,根據資料集的性質,讓我們將訓練資料的標準長度(max_len)設定為4。
maxlen是標準長度的參數,並進行相應設定。
建立模型
假設您具有TensorFlow基礎知識,並且您熟悉模型。除了嵌入層之外,所有內容都將成為標準配置。
為什麼要嵌入圖層?
我們設計的資料只是數字的陣列而並非數字,可以通過比較數字來關聯一個與另一個的相似之處。我們需要有一個嵌入層,通過將它們轉換為固定大小的密集向量來計算它們之間的關係,從而有助於將這些數字轉化為更有意義的東西。
嵌入層接收的三個參數:
input_dim(語料庫中唯一詞的總和)
output_dim(相應的密集向量的大小)
input_length(輸入資料的標準長度)
訓練模式
一旦完成配置,我們就可以訓練我們的模型。由於我們的資料集很小,因此不需要太多的時間來訓練它。
模型評估
這是最後一步,可以通過創建一個簡單的函數,並且使用剛剛創建好的模型來預測新單詞,用以判斷模型是否已經完善。
好了,本文到此結束。如果對程式設計、計算機、程式設計師方面感興趣的話,歡迎私信聯絡我,隨時交流!點個關注,是對我莫大的鼓勵!
相關文章
我们将构建一个简单的TensorFlow模型,作为有效概括训练数据的结果,该模型会将用户的评论分为正面还是负面。我们将需要用到ML库,当然除了Tensorflow本身之外,我们还需要其他<em>python</em>库和工具来开发我们的模型。1.
2021-05-28 06:00:23
Hello,大家好,我是程序媛小敏,持续为您分享<em>python</em>知识。一位粉丝私信问我:小敏,我在使用字符串占位符%的时候,不知道该如何使用,可以系统地讲讲么?针对粉丝的问题,本篇我们就一起来探讨下,<em>python</em>中字符串占位
2021-05-28 06:00:22
每日一城:立陶宛首都维尔纽斯 读书笔记:《<em>Python</em>数据分析从入门到实践》,每周二、四、日更新 4.1 数据计算 一、sum函数 DataFrame.sum([axis=,skipna=])参数说明:1)axis=1代表行累加,axis=0代表列累加 2)skipna=1
2021-05-28 06:00:05
随即同创共享产业管理集团资本战略合作方签约仪式也正式开始:签约嘉宾上台,移步到指定的签约台,在<em>ipad</em>上进行签名,在签约背景音乐的衬托下,顺利进行。 合多方之力,集众家所长,谋商业模式之变革,合同创共享之
2021-05-28 05:30:13
这里传输的画面是高清画面哦,最大支持1920X1080分辨率,另外不受操作系统的限制,Linux、Mac、Windows、<em>Android</em>、iOS各种系统均能兼容。 使用远程控制功能时还拥有多种功能可供选择,包括触屏模式、自定义键盘
2021-05-28 05:00:35
该报告通过对我国(港、澳、台除外)27个省级政府、4个直辖市、333个地级市政府以及国务院各部委的门户网站、政务微博(以新浪微博为主)、政务微信、政务APP(<em>Android</em>和iOS系统)、政务短视频(抖音、快手)五种渠道进行了
2021-05-28 05:00:18