南开大学23年春学期《网络爬虫技术》在线作业一

奥鹏南开大学新学期作业参考

23春学期（高起本：1709-2103、专升本/高起专：1909-2103）《网络爬虫技术》在线作业-00001

带上通过Chrome浏览器从评论页面复制而来的（）再发起请求，可以减少爬虫被网站封锁的概率
A:Cookie
B:Html
C:Headers
D:CSS
正确答案问询微信：424329

如果使用Python的数据结构来做类比的话，MongoDB中文档相当于一个()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信：424329

Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为（）
A:空
B:空列表
C:空元组
D:不返回
正确答案问询微信：424329

xpath中extract方法返回值类型是（）
A:列表
B:元组
C:字典
D:集合
正确答案问询微信：424329

Lxml库是基于libxml2的（）解析库的Python封装库
A:XML
B:JSON
C:LXML
D:HTML
正确答案问询微信：424329

通过（）爬取伪装成异步加载的后端渲染数据
A:正则表达式
B:Json字符串
C:JavaScript
D:Get
正确答案问询微信：424329

在Scrapy的目录下，哪个文件负责数据抓取以后的处理工作？（）
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信：424329

BeautifulSoup库采用Python标准库，使用方法是()
A:BeautifulSoup(markup,"html.parser")
B:BeautifulSoup(markup,"lxml")
C:BeautifulSoup(markup,"xml")
D:BeautifulSoup(markup,"html5lib")
正确答案问询微信：424329

用Xpathh获取第二个div标签应该是（）
A:dvi(1)
B:div(2)
C:div[1]
D:div[2]
正确答案问询微信：424329

PyMongo中逻辑查询表示大于等于的符号是（）
A:$gt
B:$lt
C:$gte
D:$lte
正确答案问询微信：424329

BeautifulSoup库使用唯一支持XML解析器的使用方法是()
A:BeautifulSoup(markup,"html.parser")
B:BeautifulSoup(markup,"lxml")
C:BeautifulSoup(markup,"xml")
D:BeautifulSoup(markup,"html5lib")
正确答案问询微信：424329

以下哪个命令是复制文件或者文件夹命令（）
A:curl
B:tar -zxvf
C:mkdir
D:cp
正确答案问询微信：424329

Python中把列表转换为集合需要使用（）函数
A:set
B:list
C:convert
D:change
正确答案问询微信：424329

()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A:meta
B:head
C:header
D:body
正确答案问询微信：424329

PyMongo中逻辑查询表示大于的符号是（）
A:$gt
B:$lt
C:$gte
D:$lte
正确答案问询微信：424329

如果使用Python奥鹏南开大学新学期作业参考代做2元一门的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面的每一个键值T都T应了一个集合，Key为（），Value就是一个集合。
A:字典
B:集合的名字
C:集合
D:文档
正确答案问询微信：424329

进入了Python交互式环境后输入()并按回车可以退出交互界面
A:exit()
B:quit()
C:q!
D:esc
正确答案问询微信：424329

当需要把Python里面的数据发送给网页时,需要先转换成（）字符串
A:Python
B:Json
C:正则表达式
D:Ajax
正确答案问询微信：424329

PyMongo中的查找方法的参数是哪种数据结构（）
A:列表
B:元组
C:字典
D:集合
正确答案问询微信：424329

Python中把集合转换为列表需要使用（）函数
A:set
B:list
C:convert
D:change
正确答案问询微信：424329

BS4可以用来从（）中提取数据
A:HTML
B:XML
C:数据库
D:JSON
正确答案问询微信：424329

Xpah中下面例子name元素的先辈节点有（）：

xiao ming
36

A:user database
B:user
C:name
D:id
正确答案问询微信：424329

Python中一个函数可以有（）个return语句
A:0
B:1
C:多个
D:2
正确答案问询微信：424329

Python中（）与元组由类似的数据读取方式
A:字符串
B:列表
C:字典
D:集合
正确答案问询微信：424329

MongoDB中获取名字为db的库的语句为（）
A:client.db
B:client('db')
C:client['db']
D:client{'db'}
正确答案问询微信：424329

Python中Lxml库可以（）HTML代码
A:下载
B:修正
C:读取
D:解析
正确答案问询微信：424329

cookies的缺点是（）
A:实现自动登录
B:跟踪用户状态
C:http中明文传输
D:增加http请求的流量
正确答案问询微信：424329

Python中正则表达式预定义字符集包括（）
A:d
B:D
C:s
D:S
正确答案问询微信：424329

Python中一个函数没有返回值则可以写（）
A:没有return
B:return
C:return None
D:return NULL
正确答案问询微信：424329

NoSQL数据库包括（）
A:键值存储数据库
B:列存储数据库
C:文档型数据库
D:图形数据库
正确答案问询微信：424329

PyMySQL是在Python3.x版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqldb
A:对
B:错
正确答案问询微信：424329

Python中re模块的修饰符re.I表示使匹配T大小写不敏感
A:对
B:错
正确答案问询微信：424329

Xpath中路径表达式base/user表示选取属于base的子元素中所有user元素
A:对
B:错
正确答案问询微信：424329

在使用多线程处理问题时，线程池设置越大越好
A:对
B:错
正确答案问询微信：424329

爬虫文件无法从Pycharm运行和调试，只能通过命令行的方式运行。
A:对
B:错
正确答案问询微信：424329

Redis和MongoDB属于键值数据库
A:对
B:错
正确答案问询微信：424329

已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
A:对
B:错
正确答案问询微信：424329

键值数据库、关系数据库都属于NoSQL
A:对
B:错
正确答案问询微信：424329

Python中字符串切片以后的结果还是字符串
A:对
B:错
正确答案问询微信：424329

使用异步加载技术的网站，被加载的内容可以在源代码中找到
A:对
B:错
正确答案问询微信：424329

在TXPath返回的T象再次执行XPath的时候，子XPath开头需要添加斜线
A:对
B:错
正确答案问询微信：424329

_init＿()方法在我们创造实例的时候，需要引用该方法才会被自动执行
A:对
B:错
正确答案问询微信：424329

Python中正则表达式边界匹配$表示匹配字符串开头
A:对
B:错
正确答案问询微信：424329

通过在终端输入python -version，可以查看当前Python 3的版本
A:对
B:错
正确答案问询微信：424329

Python中正则表达式边界匹配A表示仅匹配字符串开头
A:对
B:错
正确答案问询微信：424329

使用AJAX技术，可以在不刷新网页的情况下更新网页数据
A:对
B:错
正确答案问询微信：424329

HTTP请求中DELETE方法用于删除一个T象，但在公共API中并不常见，毕竟一个公司不会让其他人随便地删除数据库中的信息。
A:对
B:错
正确答案问询微信：424329

Hbase属于列存数据库
A:对
B:错
正确答案问询微信：424329

在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。
A:对
B:错
正确答案问询微信：424329

如果需要安装某个特定版本的Python，可以在终端中输入：
sudo apt-get install python3.5
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源