首頁 > 軟體

Python操作ES的方式及與Mysql資料同步過程範例

2022-04-19 19:02:30

Python操作Elasticsearch的兩種方式

# 官方提供的:Elasticsearch
# pip install elasticsearch
# GUI:pyhon能做圖形化介面程式設計嗎?
	-Tkinter
  -pyqt
# 使用(查詢是重點)
# pip3 install elasticsearch
https://github.com/elastic/elasticsearch-py
from elasticsearch import Elasticsearch
obj = Elasticsearch(['127.0.0.1:9200','192.168.1.1:9200','192.168.1.2:9200'],)
# 建立索引(Index)
# body:用來幹什麼?mapping:{},setting:{}
# result = obj.indices.create(index='user',ignore=400)
# print(result)
# 刪除索引
# result = obj.indices.delete(index='user', ignore=[400, 404])
# 插入和查詢資料(檔案的增刪查改),是最重要
# 插入資料
# POST news/politics/1
# {'userid': '1', 'username': 'lqz','password':'123'}
# data = {'userid': '1', 'username': 'lqz','password':'123'}
# result = obj.create(index='news', doc_type='politics', id=1, body=data)
# print(result)
# 更新資料
'''
不用doc包裹會報錯
ActionRequestValidationException[Validation Failed: 1: script or doc is missing
'''
# data ={'doc':{'userid': '1', 'username': 'lqz','password':'123ee','test':'test'}}
# result = obj.update(index='news', doc_type='politics', body=data, id=1)
# print(result)
# 刪除資料
# result = obj.delete(index='news', doc_type='politics', id=1)
# 查詢
# 查詢所有檔案
# query = {'query': {'match_all': {}}}
#  查詢名字叫做jack的所有檔案
# query = {'query': {'match': {'desc': '嬌憨可愛'}}}
# query = {'query': {'term': {'from': 'sheng'}}}
query = {'query': {'term': {'name': '娘子'}}}
# term和match的區別
# term是短語查詢,不會對term的東西進行分詞
# match 會多match的東西進行分詞,再去查詢
# 查詢年齡大於11的所有檔案
# allDoc = obj.search(index='lqz', doc_type='doc', body=query)
allDoc = obj.search(index='lqz', doc_type='doc', body=query)
print(allDoc)
import json
print(json.dumps(allDoc))
# print(allDoc['hits']['hits'][0]['_source'])
# 如何整合到django專案中:建立索引,提前建立好就行了
# 插入資料,查詢資料,修改資料
# query = {'query': {'term': {'name': '娘子'}}}
# allDoc = obj.search(index='lqz', doc_type='doc', body=query)
# json格式直接返回
# saas :軟體即服務,不是用人家服務,而是寫服務給別人用----》正常的開發
# 輿情監測系統:(爬蟲)
# 只監控微博---》宜家:微博,百度貼吧,上市公司
# 公安:負面的,---》追蹤到哪個使用者發的---》找上門了
# qq群,微信群----》輿情監控(第三方做不了,騰訊出的輿情監控,第三方機構跟騰訊合作,騰訊提供介面,第三方公司做)
# 平臺開發出來,別人買服務---》買一年的微博關鍵字監控

ERP:公司財務,供應鏈

某個大公司,金蝶,用友,開發了軟體----》你們公司自己買伺服器---》軟體跑在你伺服器上
saas模式:公司買服務,10年服務----》賬號密碼---》登進去就能操作---》出了問題找用友---》伺服器在別人那---》政務雲,各種雲---所有東西上雲

---政府花錢買的東西---》用友敢洩露嗎?
---未來的雲端計算---》只能能上網---》計算機運算能力有限---》上雲買服務---》計算1+。。。+100  ---》買了計算服務,直接拿到結果 

# 第二種使用方式
# https://github.com/elastic/elasticsearch-dsl-py
# pip3 install elasticsearch-dsl
from datetime import datetime
from elasticsearch_dsl import Document, Date, Nested, Boolean,analyzer, InnerDoc, Completion, Keyword, Text,Integer
from elasticsearch_dsl.connections import connections
connections.create_connection(hosts=["localhost"])
class Article(Document):
    title = Text(analyzer='ik_max_word', search_analyzer="ik_max_word", fields={'title': Keyword()})
    author = Text()
    class Index:
        name = 'myindex'  # 索引名
    def save(self, ** kwargs):
        return super(Article, self).save(** kwargs)
if __name__ == '__main__':
    # Article.init()  # 建立對映
    # 儲存資料
    # article = Article()
    # article.title = "測試資料"
    # article.author = "egon"
    # article.save()  # 資料就儲存了
    #查詢資料
    # s=Article.search()
    # s = s.filter('match', title="測試")
    # results = s.execute()
    # # 類比queryset物件,列表中一個個物件
    # # es中叫Response,當成一個列表,列表中放一個個物件
    # print(results)
    #刪除資料
    # s = Article.search()
    # s = s.filter('match', title="測試").delete()
    #修改資料
    s = Article().search()
    s = s.filter('match', title="測試")
    results = s.execute()
    print(results[0])
    results[0].title="xxx"
    results[0].save()
    # 其他操作,參見檔案

mysql和Elasticsearch同步資料

# 只要article表插入一條資料,就自動同步到es中
# 第一種方案:
	-每當aritcle表插入一條資料(檢視類中,Article.objects.create(),update)
  -往es中插入一條
  -缺陷:程式碼耦合度高,改好多地方
# 第二種方案:
	-重寫create方法,重寫update方法
  -缺陷:同步操作---》es中插入必須返回結果才能繼續往下走
# 第三種方案:
	-用celery,做非同步
  -缺陷:引入celery,還得有訊息佇列。。。
# 第四種方案:(用的最多)
	-重寫create方法,重寫update方法,用訊號存入,非同步操作
  -缺陷:有程式碼侵入
# 第五種方案:(專案不寫程式碼,自動同步),第三方開源的外掛
	-https://github.com/siddontang/go-mysql-elasticsearch----go寫
  -你可以用python重寫一個,放到git上給別人用(讀了mysql的紀錄檔)
  -跟平臺無關,跟語言無關
  -如何使用:
  	-原始碼下載---》交叉編譯---》可執行檔案--》執行起來--》組態檔配好,就完事了
    # 組態檔
    [[source]]
    schema = "資料庫名"
    tables = ["article"]
    [[rule]]
    schema = "資料庫名"
    table = "表明"
    index = "索引名"
    type = "型別名"
  # 缺陷:
  	-es跟mysql同步時,不希望把表所有欄位都同步,mysql的多個表對著es的一個型別
  # 話術升級:
  	-一開始同步
    -用了開源外掛(讀取mysql紀錄檔,連線上es,進行同步)
    -用訊號自己寫的
    -再高階:仿著他的邏輯,用python自己寫的,----》(把這個東西開源出來)

haystack的使用

  • django上的一個第三方模組 ---》你使用過的django第三方模組有哪些?
  • 可以在django上實現全文檢索
  • 相當於orm--》對接es,solr,whoosh
  • https://www.jb51.net/article/218631.htm
  • 不支援es,6以上版本
  • haystack+Elasticsearch實現全文檢索
  • es的原生操作:ELasticsearch   Elasticsearch-dsl

Redis補充

#1  只有5種資料結構:
	-多種資料結構:字串,hash,列表,集合,有序集合
#2  單執行緒,速度為什麼這麼快?
  -本質還是因為是記憶體資料庫
  -epoll模型(io多路複用)
  -單執行緒,沒有執行緒,程序間的通訊
#3 linux上 安裝redis#下載
  https://redis.io/download/
  #解壓
  tar -xzf redis-5.0.7.tar.gz
  #建立軟連線
  ln -s redis-5.0.7 redis
  cd redis
  make&&make install
  # bin路徑下幾個命令:redis-cli,redis-server,redis-sentinel
  # 在任意位置能夠執行redis-server 如何做?設定環境變數
#4  啟動redis的三種方式
  	-方式一:(一般不用,沒有組態檔)
    	-redis-server
    -方式二:(用的也很少)
    	redis-serve --port 6380
    -方式三:(都用這種,組態檔)
    	daemonize yes #是否以守護行程啟動
      pidfile /var/run/redis.pid   #程序號的位置,刪除
      port 6379    #埠號
      dir "/opt/soft/redis/data"  #工作目錄
      logfile 6379.log #紀錄檔位置  
      # 啟動:redis-server redis.conf1
#5 使用者端連線
  redis-cli -h 127.0.0.1 -p 6379
#6 使用場景
  -看md檔案

以上就是Python操作ES的方式及Mysql資料同步過程範例詳解的詳細內容,更多關於Python操作ES方式Mysql資料同步的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com