<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Abstract Syntax Trees即抽象語法樹。Ast是python原始碼到位元組碼的一種中間產物,藉助ast模組可以從語法樹的角度分析原始碼結構。
此外,我們不僅可以修改和執行語法樹,還可以將Source生成的語法樹unparse成python原始碼。因此ast給python原始碼檢查、語法分析、修改程式碼以及程式碼偵錯等留下了足夠的發揮空間。
Python官方提供的CPython直譯器對python原始碼的處理過程如下:
Parse source code into a parse tree (Parser/pgen.c)
Transform parse tree into an Abstract Syntax Tree (Python/ast.c)
Transform AST into a Control Flow Graph (Python/compile.c)
Emit bytecode based on the Control Flow Graph (Python/compile.c)
即實際python程式碼的處理過程如下:
原始碼解析 --> 語法樹 --> 抽象語法樹(AST) --> 控制流程圖 --> 位元組碼
上述過程在python2.5之後被應用。python原始碼首先被解析成語法樹,隨後又轉換成抽象語法樹。在抽象語法樹中我們可以看到原始碼檔案中的python的語法結構。
大部分時間程式設計可能都不需要用到抽象語法樹,但是在特定的條件和需求的情況下,AST又有其特殊的方便性。
下面是一個抽象語法的簡單範例。
Module(body=[ Print( dest=None, values=[BinOp( left=Num(n=1),op=Add(),right=Num(n=2))], nl=True, )])
先簡單瞭解一下compile函數。
compile(source, filename, mode[, flags[, dont_inherit]])
func_def = """ def add(x, y): return x + y print add(3, 5) """
使用Compile編譯並執行:
>>> cm = compile(func_def, '<string>', 'exec') >>> exec cm >>> 8
上面func_def經過compile編譯得到位元組碼,cm即code物件,
True == isinstance(cm, types.CodeType)。
compile(source, filename, mode, ast.PyCF_ONLY_AST) <==> ast.parse(source, filename='<unknown>', mode='exec')
使用上面的func_def生成ast.
r_node = ast.parse(func_def) print astunparse.dump(r_node) # print ast.dump(r_node)
下面是func_def對應的ast結構:
Module(body=[ FunctionDef( name='add', args=arguments( args=[Name(id='x',ctx=Param()),Name(id='y',ctx=Param())], vararg=None, kwarg=None, defaults=[]), body=[Return(value=BinOp( left=Name(id='x',ctx=Load()), op=Add(), right=Name(id='y',ctx=Load())))], decorator_list=[]), Print( dest=None, values=[Call( func=Name(id='add',ctx=Load()), args=[Num(n=3),Num(n=5)], keywords=[], starargs=None, kwargs=None)], nl=True) ])
除了ast.dump,有很多dump ast的第三方庫,如astunparse, codegen, unparse等。這些第三方庫不僅能夠以更好的方式展示出ast結構,還能夠將ast反向匯出python source程式碼。
module Python version "$Revision$" { mod = Module(stmt* body)| Expression(expr body) stmt = FunctionDef(identifier name, arguments args, stmt* body, expr* decorator_list) | ClassDef(identifier name, expr* bases, stmt* body, expr* decorator_list) | Return(expr? value) | Print(expr? dest, expr* values, bool nl)| For(expr target, expr iter, stmt* body, stmt* orelse) expr = BoolOp(boolop op, expr* values) | BinOp(expr left, operator op, expr right)| Lambda(arguments args, expr body)| Dict(expr* keys, expr* values)| Num(object n) -- a number as a PyObject. | Str(string s) -- need to specify raw, unicode, etc?| Name(identifier id, expr_context ctx) | List(expr* elts, expr_context ctx) -- col_offset is the byte offset in the utf8 string the parser uses attributes (int lineno, int col_offset) expr_context = Load | Store | Del | AugLoad | AugStore | Param boolop = And | Or operator = Add | Sub | Mult | Div | Mod | Pow | LShift | RShift | BitOr | BitXor | BitAnd | FloorDiv arguments = (expr* args, identifier? vararg, identifier? kwarg, expr* defaults) }
上面是部分摘自官網的 Abstract Grammar,實際遍歷ast Node過程中根據Node的型別存取其屬性。
python提供了兩種方式來遍歷整個抽象語法樹。
將func_def中的add函數中的加法運算改為減法,同時為函數實現新增呼叫紀錄檔。
class CodeVisitor(ast.NodeVisitor): def visit_BinOp(self, node): if isinstance(node.op, ast.Add): node.op = ast.Sub() self.generic_visit(node) def visit_FunctionDef(self, node): print 'Function Name:%s'% node.name self.generic_visit(node) func_log_stmt = ast.Print( dest = None, values = [ast.Str(s = 'calling func: %s' % node.name, lineno = 0, col_offset = 0)], nl = True, lineno = 0, col_offset = 0, ) node.body.insert(0, func_log_stmt) r_node = ast.parse(func_def) visitor = CodeVisitor() visitor.visit(r_node) # print astunparse.dump(r_node) print astunparse.unparse(r_node) exec compile(r_node, '<string>', 'exec')
執行結果:
Function Name:add def add(x, y): print 'calling func: add' return (x - y) print add(3, 5) calling func: add -2
使用NodeVisitor主要是通過修改語法樹上節點的方式改變AST結構,NodeTransformer主要是替換ast中的節點。
既然func_def中定義的add已經被改成一個減函數了,那麼我們就徹底一點,把函數名和引數以及被呼叫的函數都在ast中改掉,並且將新增的函數呼叫log寫的更加複雜一些,爭取改的面目全非:-)
class CodeTransformer(ast.NodeTransformer): def visit_BinOp(self, node): if isinstance(node.op, ast.Add): node.op = ast.Sub() self.generic_visit(node) return node def visit_FunctionDef(self, node): self.generic_visit(node) if node.name == 'add': node.name = 'sub' args_num = len(node.args.args) args = tuple([arg.id for arg in node.args.args]) func_log_stmt = ''.join(["print 'calling func: %s', " % node.name, "'args:'", ", %s" * args_num % args]) node.body.insert(0, ast.parse(func_log_stmt)) return node def visit_Name(self, node): replace = {'add': 'sub', 'x': 'a', 'y': 'b'} re_id = replace.get(node.id, None) node.id = re_id or node.id self.generic_visit(node) return node r_node = ast.parse(func_def) transformer = CodeTransformer() r_node = transformer.visit(r_node) # print astunparse.dump(r_node) source = astunparse.unparse(r_node) print source # exec compile(r_node, '<string>', 'exec') # 新加入的node func_log_stmt 缺少lineno和col_offset屬性 exec compile(source, '<string>', 'exec') exec compile(ast.parse(source), '<string>', 'exec')
結果:
def sub(a, b): print 'calling func: sub', 'args:', a, b return (a - b) print sub(3, 5) calling func: sub args: 3 5 -2 calling func: sub args: 3 5 -2
程式碼中能夠清楚的看到兩者的區別。這裡不再贅述。
AST模組實際程式設計中很少用到,但是作為一種原始碼輔助檢查手段是非常有意義的;語法檢查,偵錯錯誤,特殊欄位檢測等。
上面通過為函數新增呼叫紀錄檔的資訊是一種偵錯python原始碼的一種方式,不過實際中我們是通過parse整個python檔案的方式遍歷修改原始碼。
下面是中日韓字元的unicode編碼範圍
CJK Unified Ideographs
Range: 4E00— 9FFF
Number of characters: 20992
Languages: chinese, japanese, korean, vietnamese
使用 unicode 範圍 u4e00 - u9fff 來判別漢字,注意這個範圍並不包含中文字元(e.g. u';' == u'uff1b') .
下面是一個判斷字串中是否包含中文字元的一個類CNCheckHelper:
class CNCheckHelper(object): # 待檢測文字可能的編碼方式列表 VALID_ENCODING = ('utf-8', 'gbk') def _get_unicode_imp(self, value, idx = 0): if idx < len(self.VALID_ENCODING): try: return value.decode(self.VALID_ENCODING[idx]) except: return self._get_unicode_imp(value, idx + 1) def _get_unicode(self, from_str): if isinstance(from_str, unicode): return None return self._get_unicode_imp(from_str) def is_any_chinese(self, check_str, is_strict = True): unicode_str = self._get_unicode(check_str) if unicode_str: c_func = any if is_strict else all return c_func(u'u4e00' <= char <= u'u9fff' for char in unicode_str) return False
介面is_any_chinese有兩種判斷模式,嚴格檢測只要包含中文字串就可以檢查出,非嚴格必須全部包含中文。
下面我們利用ast來遍歷原始檔的抽象語法樹,並檢測其中字串是否包含中文字元。
class CodeCheck(ast.NodeVisitor): def __init__(self): self.cn_checker = CNCheckHelper() def visit_Str(self, node): self.generic_visit(node) # if node.s and any(u'u4e00' <= char <= u'u9fff' for char in node.s.decode('utf-8')): if self.cn_checker.is_any_chinese(node.s, True): print 'line no: %d, column offset: %d, CN_Str: %s' % (node.lineno, node.col_offset, node.s) project_dir = './your_project/script' for root, dirs, files in os.walk(project_dir): print root, dirs, files py_files = filter(lambda file: file.endswith('.py'), files) checker = CodeCheck() for file in py_files: file_path = os.path.join(root, file) print 'Checking: %s' % file_path with open(file_path, 'r') as f: root_node = ast.parse(f.read()) checker.visit(root_node)
上面這個例子比較的簡單,但大概就是這個意思。
關於CPython直譯器執行原始碼的過程可以參考官網描述:PEP 339
一個函數中定義的函數或者lambda中參照了父函數中的local variable,並且當做返回值返回。特定場景下閉包是非常有用的,但是也很容易被誤用。
關於python閉包的概念可以參考我的另一篇文章:理解Python閉包概念
這裡簡單介紹一下如何藉助ast來檢測lambda中閉包的參照。程式碼如下:
class LambdaCheck(ast.NodeVisitor): def __init__(self): self.illegal_args_list = [] self._cur_file = None self._cur_lambda_args = [] def set_cur_file(self, cur_file): assert os.path.isfile(cur_file), cur_file self._cur_file = os.path.realpath(cur_file) def visit_Lambda(self, node): """ lambda 閉包檢查原則: 只需檢測lambda expr body中args是否參照了lambda args list之外的引數 """ self._cur_lambda_args =[a.id for a in node.args.args] print astunparse.unparse(node) # print astunparse.dump(node) self.get_lambda_body_args(node.body) self.generic_visit(node) def record_args(self, name_node): if isinstance(name_node, ast.Name) and name_node.id not in self._cur_lambda_args: self.illegal_args_list.append((self._cur_file, 'line no:%s' % name_node.lineno, 'var:%s' % name_node.id)) def _is_args(self, node): if isinstance(node, ast.Name): self.record_args(node) return True if isinstance(node, ast.Call): map(self.record_args, node.args) return True return False def get_lambda_body_args(self, node): if self._is_args(node): return # for cnode in ast.walk(node): for cnode in ast.iter_child_nodes(node): if not self._is_args(cnode): self.get_lambda_body_args(cnode)
遍歷工程檔案:
project_dir = './your project/script' for root, dirs, files in os.walk(project_dir): py_files = filter(lambda file: file.endswith('.py'), files) checker = LambdaCheck() for file in py_files: file_path = os.path.join(root, file) checker.set_cur_file(file_path) with open(file_path, 'r') as f: root_node = ast.parse(f.read()) checker.visit(root_node) res = 'n'.join([' ## '.join(info) for info in checker.illegal_args_list]) print res
由於Lambda(arguments args, expr body)中的body expression可能非常複雜,上面的例子中僅僅處理了比較簡單的body expr。可根據自己工程特點修改和擴充套件檢查規則。為了更加一般化可以單獨寫一個visitor類來遍歷lambda節點。
Ast的應用不僅限於上面的例子,限於篇幅,先介紹到這裡。期待ast能幫助你解決一些比較棘手的問題。
以上就是Python Ast抽象語法樹的介紹及應用詳解的詳細內容,更多關於Python Ast抽象語法樹的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45