第13期 python实现知网论文信息获取 - 科研学帮帮

第13期 python实现知网论文信息获取

2024-5-20 16:58

|

0

|

80

|

470 字

|

2 分钟

第13期

本期以实用为导向，介绍如何使用selenium模块实现知网条目抓取

个人学习用

2 实现效果

根据主题词和设定论文数即可实现知网论文信息批量获取

3 python总代码

4 代码剖析

预先准备

下载浏览器的webdrive，以便后续代码调用
网址(https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/)

导入模块

导入模块
选择部分默认设置
加载webdrive
进入搜索界面并输入搜索主题内容
模拟打开知网高级搜索界面
查找网页元素。在对应input框内插入搜索词（可自定义）
模拟点击进行搜索

模拟鼠标操作，进行循环
循环主体代码
获取当前条目的信息，包括作者，期刊，标题及日期
模拟点击进入条目主页，获取摘要信息。
保存信息到字典文件，以便后续保存
切换回主搜索界面，进行循环
由于部分网页加载不完全，可能会无法抓取摘要。添加try-except。失败时刷新网页，保证循环正常进行
最终返回article_list列表

保存结果

实用pandas模块，保存至csv文件里

5 注意

代码基于selenium,稳定性好，不风控，但速度慢
代码中关于信息填入，以及抓取的条目，可以进行很好的自定义。
- 具体如何实现，可参考selenium如何抓取网页元素（XPATH选择已经很好用）
仅供文献大量阅读时用。

代码

暂无评论

发送评论编辑评论

Markdown

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!