快读从互联网上爬取大量渣男的信息。
按照给定的关键词生成搜索策略,从搜索引擎中获取结果页 url。
从给定的结果页 url 获取网页内容。
- IP 池
- 站点相关 Cookie 池
- Selenium 容器
从网页内容中抽取出人物信息,即实体-关系抽取。
接收解析器抽取的信息并存储到数据库中。
sobcrawler --singleton "(叶飞杨 or Yefeiyang or 'feiyang ye' or yfy or ronso) and (南方科技 or SUST)" --output result.json
sobcrawler --walk "湖北" --persist-server localhost:3500