南开大学23年春学期《网络爬虫与信息提取》在线作业三
奥鹏南开大学新学期作业参考
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00003
在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329
参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A:HEADER
B:HEADERS
C:HEAD
D:BODY
正确答案问询微信:424329
可以通过()绕过网站登录。
A:session
B:cookies
C:moonpies
D:localstorage
正确答案问询微信:424329
下面代码一共执行循环多少次():
i=0
while i 29的记录是()
A:collection.find({'age': {'$gt': 29}})
B:collection.find({'age'>29})
C:collection.find_all({'age': {'$gt': 29}})
D:collection.find_all({'age'>29})
正确答案问询微信:424329
使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A:content
B:text
C:title
D:body
正确答案问询微信:424329
如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
A:字典
B:集合的名字
C:集合
D:文档
正确答案问询微信:424329
使用UI Automator打开微信的操作是获取相应图标后使用命令()
A:touch
B:click
C:push
D:hover
正确答案问询微信:424329
Scrapy自带的待爬队列是()
A:deque
B:queue
C:list
D:lqueue
正确答案问询微信:424329
启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf
A:config
B:install
C:start
D:begin
正确答案问询微信:424329
在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329
如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个()。
A:字典
B:集合的名字
C:集合
D:文档
正确答案问询微信:424329
Python中哪种容器一旦生成就不能修改
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
使用xpath方法的返回类型是()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
python中可以用来将图片中的文字转换为文本的第三方类库是
A:lxml
B:requests
C:beautifulsoup
D:pytesseract
正确答案问询微信:424329
requests中post请求方法的第二个参数可以为()
A:字典
B:列表
C:json数据
D:字符串
正确答案问询微信:424329
Redis中的值可以支持()
A:列表
B:哈希
C:集合
D:有序集合
正确答案问询微信:424329
HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A:403
B:404
C:500
D:503
正确答案问询微信:424329
下载器中间件的作用有哪些?
A:更换代理IP
B:更换Cookies
C:更换User-Agent
D:自动重试
正确答案问询微信:424329
最常见的HTTP请求类型有()
A:GET
B:POST
C:SEND
D:RECEIVE
正确答案问询微信:424329
Python中的容器有()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A:非法侵入计算机系统罪
B:非法获取计算机信息系统数据罪
C:非法获取计算机数据罪
D:非法获取系统罪
正确答案问询微信:424329
要使用tesseract来进行图像识别,需要安装两个第三方库
A:requests
B:beautifulsoup
C:Pillow
D:pytesseract
正确答案问询微信:424329
Python中有哪些实现多线程方法()
A:multiprocess.dummy
B:threading.Thread
C:process
D:PyMongoDB
正确答案问询微信:424329
在配置ios使用Charles的操作中,正确的有()
A:对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B:选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C:输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D:安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
正确答案问询微信:424329
所有的异步加载都会向后台发送请求
A:对
B:错
正确答案问询微信:424329
当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
A:对
B:错
正确答案问询微信:424329
Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
A:对
B:错
正确答案问询微信:424329
PyMongoDB中排序方法sort第二个参数-1表示升序
A:对
B:错
正确答案问询微信:424329
通用网络爬虫通常采用串行工作方式
A:对
B:错
正确答案问询微信:424329
Python中写CSV文件的writerows方法参数为字典类型
A:对
B:错
正确答案问询微信:424329
在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
A:对
B:错
正确答案问询微信:424329
MongoDB URI的格式为:
mongodb://服务器IP或域名:端口@用户名:密码
A:对
B:错
正确答案问询微信:424329
操作文本难以实现自动化,而操作图形界面可以容易的实现自动化。
A:对
B:错
正确答案问询微信:424329
如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
A:对
B:错
正确答案问询微信:424329
在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
A:对
B:错
正确答案问询微信:424329
在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的奥鹏南开大学新学期作业参考 代做2元一门
A:对
B:错
正确答案问询微信:424329
Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
A:对
B:错
正确答案问询微信:424329
HTTP只能通过POST请求才能发送数据
A:对
B:错
正确答案问询微信:424329
如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A:对
B:错
正确答案问询微信:424329
使用AJAX技术,可以在不刷新网页的情况下更新网页数据
A:对
B:错
正确答案问询微信:424329
”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
A:对
B:错
正确答案问询微信:424329
如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是首先把数据或者分析结果出售给某基金公司,然后自己再买被爬公司的股票。此时,涉嫌内幕交易,属于严重违法行为。
A:对
B:错
正确答案问询微信:424329
Redis中查询列表长度命令llen中l代表left,即从左侧开始数
A:对
B:错
正确答案问询微信:424329
爬虫中间件的作用对象是请求request和返回response
A:对
B:错
正确答案问询微信:424329