可视化的爬虫平台,无需代码

大家好,我是老章

废话说声,推荐几个好玩的东西


  • 开源免费的可视化的爬虫平台

  • 最智能且最实惠的小型模型——GPT-4o mini

  • 数学推理专用大模型——Mathstral

  • 开盲盒的有趣网站


开源免费的可视化的爬虫平台

发现一个开源免费的可视化的爬虫平台——Kspider。

通过以流程图的方式配置爬虫,基本上无需编写代码即可完成数据爬取工作,对小白来说极其友好。

GitHub:`https://github.com/kkangert/kspider

无需编写后端代码的爬虫平台,可自定义函数、复杂脚本、定时任务,支持插件热插拔,自定义扩展,方便快捷的管理UI,效率翻倍。

具有如下主要特性:

  • 支持 xpath 和 css 选择器;
  • 支持 Cookie 自动管理;
  • 支持插件插件扩展(自定义执行器,自定义函数等)和热插拔;
  • 支持爬取由 js 动态渲染的页面;
  • 支持同步和异步执行;
  • 支持自定义 JS 脚本引擎。

安装部署:

1、准备环境

JDK >= 1.8
Mysql >= 5.7(使用Spring Data JPA,数据库层面根据业务需求可更改)
Maven >= 3.0 下载地址:(http://maven.apache.org/download.cgi)

2、运行项目:克隆后端项目,进入项目目录运行如下命令

docker-compose -f deploy/kspider.yml up -d

3、若出现如下日志,则启动成功

[+] Running 12/12 ✔ kspider-mysql Pulled 64.4s ✔ d9a40b27c30f Pull complete 4.1s ✔ c3e750b66554 Pull complete 1.2s ✔ 8c7ce6c9ed47 Pull complete 2.0s ✔ 07b15d10f125 Pull complete 4.2s ✔ 36aa6d82134c Pull complete 3.8s ✔ ff7ba837a054 Pull complete 5.2s ✔ 2434679df156 Pull complete 8.4s ✔ 6bf60bd2cde3 Pull complete 5.5s ✔ 4914dbc1b9fc Pull complete 18.5s ✔ a24e196bc810 Pull complete 7.6s ✔ 068a7d33dd38 Pull complete  
✔ Network deploy_default Created 0.1s ✔ Container kspider Started 1.7s ✔ Container kspider-mysql Started 1.7s ✔ Container kspider-ui Started 0.2s

最智能且最实惠的小型模型——GPT-4o mini

OpenAI 正式发布了 GPT-4o mini!,ChatGPT 的免费版、Plus 版和 Team 用户将能够从周四开始访问 GPT-4o mini(其知识截至 2023 年 10 月),以代替 GPT-3.5 Turbo。

总结如下:

  • 它是GPT-4o 的迷你版本
  • 免费在ChatGPT网页使用
  • 擅长文本智能和多模态推理
  • 这是目前最智能且最实惠的小型模型
  • API价格低至每百万输入 token  15 美分,每百万输出 token 60 美分,比  GPT-3.5 Turbo 便宜 60% 以上

数学推理专用大模型——Mathstral

大模型集体失智!9.11 和 9.9 哪个大,几乎全翻车了

法国大模型独角兽 Mistral AI 发布了一个专注于数学推理和科学发现的 7B 大模型「Mathstral」,来解决需要复杂、多步骤逻辑推理的高级数学问题。

发布之后,mathstral 很快就出现在ollama模型列表,现已可用。

terminal 运行ollama run mathstral即可

比如问它另OpenAI GPT-4o、Google Gemini等在内的大语言模型都翻了车的「9.11 和 9.9 谁大」这个简单问题

虽然啰嗦,但是结果完全正确。为了让大家更容易看,我把mathstral的回答翻译成了中文:

理解比较

我们需要确定 9.11 或 9.9 哪个更大。让我们用展开形式表示这两个数字。

展开十进制表示

简化并比较

让我们分解这些数字来更直接地比较它们的整数部分和小数部分:

  • 对于 9.11,我们有:,这可以看作是 9 + 0.1 + 0.01。
  • 对于 9.9,我们有:,这可以写作 9 + 0.9。

直接比较

我们比较每个数字的小数部分:

  • 9.11 的小数部分是:
  • 9.9 的小数部分是:

结论

由于 ,因此:,因此, 比 9.11 大。

开盲盒的有趣网站

最后分享一个很有趣的网站:sharkle.com

唯一的功能就是点击中心的按钮show me something awesome, 然后网站会随机跳转到另外一个很酷的网站。

每次点击都像在开盲盒,你永远不知道弹出的新窗口里会有什么。

比如我点了一下,它弹出了这个网址:https://koalastothemax.com/

进入页面只有一个大圆,随着鼠标的不断滑动,圆会不断分类成小圆,就像刮刮乐一样,最终会刮出来一张随机的考拉图片!

话说,你开到了什么盲盒,评论区说说。

大模型最新情报

Pandas 加速150倍!

用机器学习来优化人生

我“参加了”阿里巴巴全球数学竞赛决赛,分享一下经验

搭建机器学习开发环境及Python基础,108页PDF

116页PDF小册子:机器学习中的概率论、统计学、线性代数


相关推荐

  • SQL AI工具太贵用不起?开源的更有性价比
  • Crowdstrike更新导致全球Windows大面积蓝屏死机
  • 未来在云端——云原生架构升级实践
  • 登顶新SOTA!阿里新开源语音模型Qwen2-Audio ,实测优于 Gemini-1.5-pro,网友:离GPT-4o只差一步
  • 大模型正成为钢铁行业转型升级的关键力量
  • AI 革命不会被垄断:开源力量挑战巨头主导
  • 聚宽揭秘:为什么量化研究员喜欢在Kubernetes上使用Fluid简化数据管理 ?
  • 当互联网遇上制造业,飞书项目的 IPD 解决方案能行吗?
  • 大模型“自学”后能力反下降,Llama/Mistral都没逃过
  • 断网也能用!贾扬清团队推出端侧模型Chrome插件,arXiv/B站/吃瓜一件搞定
  • 提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
  • GPT-4o mini背后团队揭秘:9人团华人面孔过半,清华北大同济校友在列
  • 招聘|高级NLP自然语言处理工程师(大模型)
  • 数据治理全流程实战剖析,助力业务增长
  • 从0到1:广告营销多智能体架构落地全攻略
  • new String("yupi") 一共创建了几个对象?
  • 看了鱼友的上岸经历,治好了我的内耗!
  • 快手开源大模型长序列训练加速技术,性能大幅超越SOTA方案
  • Neural Networks (CCF-B) 特刊征稿:大语言模型时代的模型压缩
  • 多模态安全偏好对齐数据集SPA-VL,全方位提升多模态大模型安全能力