大语言模型控制浏览器-nanobrowser

GitHub 上发现一个有意思的插件:Nanobrowser

这是个 Chrome 插件,装上之后就能用自然语言控制浏览器帮你干活。
现在有 1 万多 Star 了。

举个例子:
我让它去 Hugging Face 看前三篇论文,
读完标题、点赞数、摘要,最后按点赞排个序。

它自己就开始跳转网页、读取内容、整理信息,
全程不用我动手,最后把结果发给我。

看它工作的时候挺有意思,
会给网页上的每个元素打个标签,然后自己点击操作。

技术上用了两个智能体:
Planner 负责理解任务、拆解步骤
Navigator 负责具体操作网页

如果遇到问题,Planner 还会动态调整策略。

成本方面,我用的 DeepSeek API,
跑这一个任务花了 1 毛钱…真的就 1 毛钱。

配置也简单,装好插件配个 API Key 就能用。

对需要重复性网页操作的场景来说,
这玩意儿还挺实用的。

来源

sitin on X: “GitHub 上发现一个有意思的插件:Nanobrowser 这是个 Chrome 插件,装上之后就能用自然语言控制浏览器帮你干活。 现在有 1 万多 Star 了。 举个例子: 我让它去 Hugging Face 看前三篇论文, 读完标题、点赞数、摘要,最后按点赞排个序。 它自己就开始跳转网页、读取内容、整理信息, https://t.co/KeJ3Tq0rOF” / X