博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取校园网新闻首页的新闻
阅读量:5301 次
发布时间:2019-06-14

本文共 1070 字,大约阅读时间需要 3 分钟。

import requestsfrom bs4 import BeautifulSoupdef get_soup(url):    req = requests.get(url)    req.encoding = 'utf-8'    soup = BeautifulSoup(req.text, 'html.parser')    return soupsoup = get_soup('http://news.gzcc.cn/html/xiaoyuanxinwen/')li_list = soup.select('li')title = list()a = list()for new in li_list:    if(len(new.select('.news-list-text'))>0):        title.append(new.select('.news-list-text')[0].select('.news-list-title')[0].text)        a.append(new.a.attrs['href'])info_list = list()con_list = list()delw = ['\r','\n','\u3000','\xa0']for curl in a:    con_soup = get_soup(curl)    con_list.append(con_soup.select('#content')[0].text)    info_list.append(con_soup.select('.show-info')[0].text.split("\xa0\xa0"))cs = list()for i in range(len(con_list)):    cs.append(''.join(con_list[0]))for i in range(len(info_list)):    print(title[i] + "        " + a[i])    for j in range(len(info_list[i])):        if(len(info_list[i][j])>0 and info_list[i][j]!=' '):            print(info_list[i][j])    print(cs[i])

转载于:https://www.cnblogs.com/yh5788lz/p/8717921.html

你可能感兴趣的文章
Unity 5.4 测试版本新特性---因吹丝停
查看>>
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)
查看>>
7.5 文件操作
查看>>
六、强大的 Stream API
查看>>
DFS-hdu-2821-Pusher
查看>>
吴裕雄 Bootstrap 前端框架开发——Bootstrap 排版:地址(Address)
查看>>
吴裕雄--天生自然 JAVASCRIPT开发学习: 表单
查看>>
UITextField
查看>>
浏览器,图片格式及特点
查看>>
Spring事务管理的三种方式
查看>>
通过 Javacore 诊断线程挂起等性能问题
查看>>
《『若水新闻』客户端开发教程》——05.设计新闻列表UI
查看>>
MyEclipse中将普通Java项目convert(转化)为Maven项目
查看>>
node js 安装.node-gyp/8.9.4 权限 无法访问
查看>>
Java_正则表达式
查看>>
Linux内核分析——第二周学习笔记
查看>>
windows基本命令
查看>>
Qt图片显示效率的比较(转)
查看>>
VMware中CentOS设置静态IP
查看>>
剑指Offer_编程题_7
查看>>