Python中怎么样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

已举报 回答 关注

Python中怎么样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

  • 回答数

    3

  • 浏览数

    7,983

3个回答 默认排序
  • 默认排序
  • 按时间排序

已采纳
最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:
import urllib,re
url = "http://www.163.com" #网页地址
wp = urllib.urlopen(url) #打开连接
content = wp.read() #获取页面内容
m = re.match(r"^你的单词$", content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
取消 评论
你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import urllib2import reword = '你想查找的单词'urlfile = urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http') #以文件的形式打开一个网页html = urlfile.read() #从网页文件中读htmlwordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词print len(wordList) #个数re模块记不太清,没试验、试试看,不行再追问
取消 评论
1.新读取源码,
2.提取单词(范围a-z,A-Z),
3.count 个数

C++ 使用stl 容器处理很容易. python比 C++ 高级很多,相信有这样的分隔函数,不用一个一个字符对比分隔. ,相信更加容易
取消 评论
ZOL问答 > Python中怎么样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

举报

感谢您为社区的和谐贡献力量请选择举报类型

举报成功

经过核实后将会做出处理
感谢您为社区和谐做出贡献

提示

确定要取消此次报名,退出该活动?