Skip to content
HugeBridge edited this page Dec 28, 2017 · 6 revisions

Welcome to the SpiderMan wiki!

SpiderMan

Developer

  • Yunqiao Yang
  • Han Yu
  • Tianheng Cheng

Goals

  1. Crawler
  2. Parser
  3. Concurrency
  4. Distributed
  5. Sentiment Analysis
  6. SQL

Status

  • Crawler
  • 网络请求
  • 验证登录
  • 识别验证码
  • 测试
  • Parser
  • BeautifulSoup解析整个文档
  • 提取出知乎问题/回答/用户 等信息
  • 提取出URL
  • 测试
  • Concurrency
  • 多线程
  • 测试
  • Distributed
  • 分布式架构设计 (类MapReduce)
  • 架构实现
  • 测试
  • Sentiment Analysis
  • 数据收集&整理
  • 构建情感分析模型
  • 训练
  • 测试&评价模型
  • 测试报告
  • SQL
  • Sqlite存储
  • 测试
Clone this wiki locally