南开大学23秋学期《网络爬虫与信息提取》在线作业二

奥鹏南开大学23年秋季新学期作业参考

23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《网络爬虫与信息提取》在线作业-00002

使用xpath方法的返回类型是()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

Python中Object={1, 2, 3, 4, 5},则Objcet是()
A:列表
B:元组
C:字典
D:集合
正奥鹏南开大学23年秋季新学期作业参考确答案问询微信:424329

使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A:wakeup
B:light
C:bright
D:sleep
正确答案问询微信:424329

Scrapy自带的待爬队列是()
A:deque
B:queue
C:list
D:lqueue
正确答案问询微信:424329

在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329

xpath中extract方法返回值类型是()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

使用Xpath构造相同字符串开头的路径采用()方法
A:starts-with
B:starts
C:begin
D:begin-with
正确答案问询微信:424329

使用Xpath获取文本使用()
A:text
B:text()
C:content
D:content()
正确答案问询微信:424329

使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A:exist
B:exists
C:isnull
D:contains
正确答案问询微信:424329

下面Python代码输出为():
def default_para_trap(para=[], value=0):
para.append(value)
return para

print('第一步:{}'.format(default_para_trap(value=100)))

print('第二步:{}'.format(default_para_trap(value=50)))
A:第一步:[100]
第二步:[100,50]
B:第一步:[100]
第二步:[50]
C:第一步:[100]
第二步:[]
D:第一步:[100]
第二步:[100]
正确答案问询微信:424329

当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A:process_spider_output()
B:process_spider_exception()
C:process_spider_input()
D:process_start_ requests()
正确答案问询微信:424329

某些网站在发起Ajax请求时会携带()字符串用于身份验证
A:Token
B:Cookie
C:ReqTime
D:sum
正确答案问询微信:424329

Python中哪种容器一旦生成就不能修改
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_1','3')是()
A:1
B:2
C:3
D:无输出
正确答案问询微信:424329

网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A:robot.txt
B:robot.html
C:robots.txt
D:robots.html
正确答案问询微信:424329

可以通过()绕过网站登录。
A:session
B:cookies
C:moonpies
D:localstorage
正确答案问询微信:424329

下列说法错误的是()
A:Charles只能截获HTTP和HTTPS的数据包,如果网站使用的是websocket或者是flashsocket,那么Charles就无能为力。
B:有一些App会自带证书,使用其他证书都无法正常访问后台接口。在这种情况下,Charles自带的证书就不能正常使用,也就没有办法抓取这种App的数据
C:有一些App的数据经过加密,App接收到数据以后在其内部进行解密。Charles无法获取这种App的数据
D:对于上述情况,Charles能抓取到经过加密的数据。但是如果无法知道数据的具体加密方法,就没有办法解读Charles抓取到的数据。
正确答案问询微信:424329

在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329

Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf
A:config
B:install
C:start
D:begin
正确答案问询微信:424329

下列关于在IOS上配置charles的说法正确的是()
A:不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B:手机和电脑需要在同一个局域网下。
C:HTTP代理可以使用“自动”选项。
D:安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
正确答案问询微信:424329

常用的会话跟踪技术是
A:session
B:cookies
C:moonpies
D:localstorage
正确答案问询微信:424329

为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A:仔细检查代码
B:开发爬虫中间件
C:开发下载器中间件
D:等待
正确答案问询微信:424329

Python中有哪些实现多线程方法()
A:multiprocess.dummy
B:threading.Thread
C:process
D:PyMongoDB
正确答案问询微信:424329

下列说法错误的是()
A:mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B:命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C:使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D:如果返回的是JSON类型的字符串,python无法进行解析。
正确答案问询微信:424329

Redis中的值可以支持()
A:列表
B:哈希
C:集合
D:有序集合
正确答案问询微信:424329

以下HTTP状态码表示服务器本身发生错误的是
A:400
B:503
C:302
D:500
正确答案问询微信:424329

如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A:服务器日志
B:数据库日志记录
C:程序日志记录
D:服务器监控
正确答案问询微信:424329

以下哪些方法属于Python写CSV文件的方法()
A:writeheaders
B:writeheader
C:writerrows
D:writerow
正确答案问询微信:424329

如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A:非法侵入计算机系统罪
B:非法获取计算机信息系统数据罪
C:非法获取计算机数据罪
D:非法获取系统罪
正确答案问询微信:424329

Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
A:对
B:错
正确答案问询微信:424329

Selenium必须加载对应的webdriver才能模拟浏览器访问
A:对
B:错
正确答案问询微信:424329

Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
A:对
B:错
正确答案问询微信:424329

操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。
A:对
B:错
正确答案问询微信:424329

异步加载的内容一般在网页框架加载完成之前
A:对
B:错
正确答案问询微信:424329

在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
A:对
B:错
正确答案问询微信:424329

使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward()
A:对
B:错
正确答案问询微信:424329

Redis中查询列表长度命令llen中l代表left,即从左侧开始数
A:对
B:错
正确答案问询微信:424329

Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
A:对
B:错
正确答案问询微信:424329

HTTP状态码302表示资源永久重定向。
A:对
B:错
正确答案问询微信:424329

所有的异步加载都会向后台发送请求
A:对
B:错
正确答案问询微信:424329

Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。
A:对
B:错
正确答案问询微信:424329

如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
A:对
B:错
正确答案问询微信:424329

process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用
A:对
B:错
正确答案问询微信:424329

Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本
A:对
B:错
正确答案问询微信:424329

数据在MongoDB中是按照“库(Database)”—“集合(Collections)”—“文档(Document)”的层级关系来存储的。
A:对
B:错
正确答案问询微信:424329

robots.txt是一种规范,在法律范畴内
A:对
B:错
正确答案问询微信:424329

Redis中写数据命令lpush中l代表list
A:对
B:错
正确答案问询微信:424329

需要实名认证的打码网站更加安全可靠。
A:对
B:错
正确答案问询微信:424329

Robo 3T与RoboMongo是完全不一样的软件
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网