#coding:utf-8 #学习分析html。 mydir="c://html//" f=file(mydir+"1.htm") in_data=f.read() #print in_data f.close() in_data="wo" #检查下文件是不是得到了 import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.script=[] self.li=[] self.flag=1 ## #输出所有的链接的东西 ## def handle_starttag(self, tag, attrs): ## # 这里重新定义了处理开始标签的函数 ## if tag == 'a': ## # 判断标签的属性 ## for name,value in attrs: ## if name == 'href': ## print value ## #处理文档类型声明 ## def handle_decl(self,decl): ## print decl #处理标签中所夹的数据 def handle_data(self,data): if self.flag==1: self.script.append(data) else: self.li.append(data) def handle_starttag(self, tag, attrs): if tag=="