Hypothesis

41 Matching Annotations

Jul 2025
dukespace.lib.duke.edu dukespace.lib.duke.edu

Anubis Pilot Project Report

1
1. peter_murray 08 Jul 2025
  
  in Public
  
  Abstract
  
  In May & June 2025, Duke University Libraries (DUL) staff successfully implemented Anubis, a configurable open source web application firewall (WAF), in order to stave off persistent onslaughts of AI-related bot scraping activity. During this pilot period (May 1 - June 10, 2025), aggressive bot scraping led to extended outages for three critical library platforms (Duke Digital Repository, Archives & Manuscripts, and the Books & Media Catalog), and in each case, implementing Anubis mitigated the problem.
  
  Permalink
  
  https://hdl.handle.net/10161/32990
  
  Citation
  
  Aery, Sean (2025). Anubis Pilot Project Report - June 2025. Retrieved from https://hdl.handle.net/10161/32990.
  
  web scraping open source software academic-library
Visit annotations in context

Tags

academic-library

open source software

web scraping

Annotators

peter_murray

URL

dukespace.lib.duke.edu/server/api/core/bitstreams/816ef134-55cf-49f6-9a8b-1e8a2324b1ff/content
Mar 2025
storage.courtlistener.com storage.courtlistener.com

S2Dp-MHW-bi25032108130

1
1. peter_murray 21 Mar 2025
  
  in Public
  
  Opinion and Order. OCLC Online Computer Library Center, Inc. v. Anna's Archive (2:24-cv-00144). District Court, S.D. Ohio.
  
  Conclusion
  
  The Court is sympathetic to OCLC's situation: a band of copyright scofflaws cloned WorldCat's hard-earned data, gave it away for free, and then ignored OCLC when it sued them in this Court. But mindful that bad facts sometimes make bad law, the Court requests that an Ohio court intervene before this Court makes any new state tort, contract, property, or criminal law.
  
  The Court resolves to CERTIFY the novel Ohio-law issues identified above to the Supreme Court of Ohio. Plaintiff's counsel and Matienzo's counsel are ORDERED to propose an order containing all the information Ohio Supreme Court Practice Rule 9. 02 requires by April 11, 2025. The parties may file their proposed orders separately, or, if they so choose, they may file one joint proposed order. The Court will finalize a certification order afterward.
  
  OCLC's motion for default judgment is DENIED without prejudice. See Lammert v. Auto-Owners (Mut. ) Ins., 286 F. Supp. 3d 919, 928-29 (M. D. Tenn. 2017) (adopting this same disposition). Because the answers to the certified questions may also determine Matienzo's motion to dismiss under Federal Rule of Civil Procedure 12(b)(6), ECF No. 21, the Court DENIES without prejudice that motion too. See id. The Court invites the parties to reraise their motions after the certification proceeding. See id.
  
  The Court also grants OCLC leave to amend its Complaint to correct any of the above-identified pleading deficiencies.
  
  OCLCvAnnasArchive web scraping
Visit annotations in context

Tags

web scraping

OCLCvAnnasArchive

Annotators

peter_murray

URL

storage.courtlistener.com/recap/gov.uscourts.ohsd.287709/gov.uscourts.ohsd.287709.47.0.pdf
Jun 2024
anania.ai anania.ai

Anania | ChatGPT for analytics and documents

1
1. polarislee 05 Jun 2024
  
  in Public
  
  chatGPT MySQL CSV Excel PDF PostgreSQL Web-crawling Web-scraping Google-search RedShift
Visit annotations in context

Tags

MySQL

RedShift

Web-crawling

Excel

Google-search

Web-scraping

PDF

CSV

PostgreSQL

chatGPT

Annotators

polarislee

URL

anania.ai/
Mar 2024
storage.courtlistener.com storage.courtlistener.com

OCLC Complaint

1
1. peter_murray 16 Mar 2024
  
  in Public
  
  By hacking WorldCat.org, scraping and harvesting OCLC’s valuable WorldCat
  
  Complain equates “hacking” with “scraping and harvesting”
  
  This is a matter of some debate—notably the recent LLM web scraping cases.
  
  web scraping
Visit annotations in context

Tags

web scraping

Annotators

peter_murray

URL

storage.courtlistener.com/recap/gov.uscourts.ohsd.287709/gov.uscourts.ohsd.287709.1.0.pdf
www.arnoldventures.org www.arnoldventures.org

Arnold Ventures | Using Jail Data to Improve Public Safety and Reduce…

1
1. mlenc 01 Mar 2024
  
  in Public
  
  web scraping incarceration data carceral data jail data prison data
Visit annotations in context

Tags

jail data

carceral data

incarceration data

prison data

web scraping

Annotators

mlenc

URL

arnoldventures.org/stories/using-jail-data-to-improve-public-safety-and-reduce-incarceration
Nov 2022
github.com github.com

rubycdp/ferrum

1
1. TylerRick 22 Nov 2022
  
  in Public
  
  If you are going to crawl sites you better use Ferrum or Vessel because you crawl, not test.
  
  determining if something is an appropriate application / best tool for the job using the right tool for the job page scraping
Visit annotations in context

Tags

page scraping

determining if something is an appropriate application / best tool for the job

using the right tool for the job

Annotators

TylerRick

URL

github.com/rubycdp/ferrum
github.com github.com

rubycdp/vessel: Fast high-level web crawling Ruby framework

1
1. TylerRick 22 Nov 2022
  
  in Public
  
  page scraping automation/bots built in/on/with: Ferrum (Ruby) ferrum
Visit annotations in context

Tags

Ferrum (Ruby)

built in/on/with:

ferrum

page scraping

automation/bots

Annotators

TylerRick

URL

github.com/rubycdp/vessel
Oct 2022
github.com github.com

How to avoid: reached server, but there are still pending connections? · Issue #122 · rubycdp/ferrum

1
1. TylerRick 28 Oct 2022
  
  in Public
  
  page scraping ferrum
Visit annotations in context

Tags

page scraping

ferrum

Annotators

TylerRick

URL

github.com/rubycdp/ferrum/issues/122
Apr 2022
forum.newsblur.com forum.newsblur.com

Is Apify the Best Scraper for Sites Without RSS? - problem - The NewsBlur Forum

1
1. chrisaldrich 29 Apr 2022
  
  in Public
  
  https://forum.newsblur.com/t/is-apify-the-best-scraper-for-sites-without-rss/9179
  
  RSS Scraper tools: - Apify https://apify.com/ - RSSHub: https://github.com/DIYgod/RSSHub - RSS Bridge: https://github.com/RSS-Bridge/rss-bridge - Five Filters: https://createfeed.fivefilters.org/ - AWS release notes feed: https://dyn.tedder.me/rss/aws-release-notes.xml - Far Side: https://dyn.tedder.me/rss/farside/daily.json
  
  List of others here: https://tedder.me/generated_news_feeds/
  
  RSS scraping bookmark
Visit annotations in context

Tags

bookmark

RSS

scraping

Annotators

chrisaldrich

URL

forum.newsblur.com/t/is-apify-the-best-scraper-for-sites-without-rss/9179
Nov 2021
medium.com medium.com

Using Selenium, Chrome Driver and Capybara to automate web-only reports

1
1. TylerRick 19 Nov 2021
  
  in Public
  
  page scraping
Visit annotations in context

Tags

page scraping

Annotators

TylerRick

URL

medium.com/@cesargralmeida/using-selenium-chrome-driver-and-capybara-to-automate-web-only-reports-7ffda7dfb83e
Jul 2020
hackersandslackers.com hackersandslackers.com

Scrape Structured Data with Python and Extruct

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  page scraping Python
Visit annotations in context

Tags

page scraping

Python

Annotators

TylerRick

URL

hackersandslackers.com/scrape-metadata-json-ld/
github.com github.com

scrapinghub/extruct

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  JSON-LD linked data page scraping Python
Visit annotations in context

Tags

linked data

page scraping

Python

JSON-LD

Annotators

TylerRick

URL

github.com/scrapinghub/extruct
www.freecodecamp.org www.freecodecamp.org

How to scrape with Ruby and Nokogiri and map the data

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  page scraping tutorial Ruby gem: nokogiri bridges
Visit annotations in context

Tags

bridges

tutorial

gem: nokogiri

page scraping

Ruby

Annotators

TylerRick

URL

freecodecamp.org/news/how-to-scrape-with-ruby-and-nokogiri-and-map-the-data-bd9febb5e18a/
github.com github.com

Scrapinghub

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  page scraping Python
Visit annotations in context

Tags

page scraping

Python

Annotators

TylerRick

URL

github.com/scrapinghub
github.com github.com

apify/actor-page-analyzer

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  Source for: https://apify.com/page-analyzer
  
  page scraping automation
Visit annotations in context

Tags

page scraping

automation

Annotators

TylerRick

URL

github.com/apify/actor-page-analyzer
blog.apify.com blog.apify.com

Web scraping in 2018 — forget HTML, use XHRs, metadata or JavaScript variables

1
1. TylerRick 30 Jul 2020
  
  in Public
  
  page scraping
Visit annotations in context

Tags

page scraping

Annotators

TylerRick

URL

blog.apify.com/web-scraping-in-2018-forget-html-use-xhrs-metadata-or-javascript-variables-8167f252439c
Jun 2020
psyarxiv.com psyarxiv.com

Text Mining of Reddit Posts: Using Latent Dirichlet Allocation to Identify Common Parenting Issues

1
1. Marlene_Wulf 12 Jun 2020
  
  in BehSci
  
  Westrupp, E., Greenwood, C., Fuller-Tyszkiewicz, M., Berkowitz, T., Hagg, L., & Youssef, G. J. (2020). Text Mining of Reddit Posts: Using Latent Dirichlet Allocation to Identify Common Parenting Issues [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/cw54u
  
  is:preprint lang:en topic modeling parenting situation Reddit text mining parenting intervention evidence-based mental health online discussion forum Daddit LDA internet scraping Mommit tailoring
Visit annotations in context

Tags

evidence-based

mental health

discussion forum

internet scraping

text mining

Daddit

Reddit

Mommit

is:preprint

topic modeling

LDA

tailoring

parenting intervention

online

lang:en

parenting situation

Annotators

Marlene_Wulf

URL

psyarxiv.com/cw54u/
May 2020
scrapism.lav.io scrapism.lav.io

Scrapism

2
1. robinwillis 25 May 2020
  
  in Public
  
  Facebook began as a (horny) web scraping project, as did Google and all other search engines.
  
  Facebook... errrr.
  
  clubcovid scraping
2. robinwillis 25 May 2020
  
  in Public
  
  Scrapism
  
  Trying to understand how to scrape data (damn I hate that phrase... it makes me thinnk of some kind of test for colon cancer or something). This pertains to #clubcovid.
  
  clubcovid scraping
Visit annotations in context

Tags

clubcovid

scraping

Annotators

robinwillis

URL

scrapism.lav.io/
Jul 2018
webcitation.org webcitation.org

WebCite

1
1. Perig 18 Jul 2018
  
  in Public
  
  Archiving service with an emphasis on scholarly publishing.
  
  Web Archiving web scraping
Visit annotations in context

Tags

Web Archiving

web scraping

Annotators

Perig

URL

webcitation.org/
ageofshitlords.com ageofshitlords.com

Vice is trying to stop you from archiving its pages. Here's how to beat their system

1
1. Perig 18 Jul 2018
  
  in Public
  
  Archiving pages that block it.
  
  Web Archiving web scraping
Visit annotations in context

Tags

Web Archiving

web scraping

Annotators

Perig

URL

ageofshitlords.com/vice-trying-stop-archiving-pages-heres-beat-system
Apr 2018
www.eff.org www.eff.org

D.C. Court: Accessing Public Information is Not a Computer Crime

2
1. Perig 13 Apr 2018
  
  in Public
  
  "The problem: the automated web browsing tools they want to use (commonly called “web scrapers”) are prohibited by the targeted websites’ terms of service, and the CFAA has been interpreted by some courts as making violations of terms of service a crime."
  
  web scraping
2. Perig 13 Apr 2018
  
  in Public
  
  Good news for anyone who uses the Internet as a source of information: A district court in Washington, D.C. has ruled that using automated tools to access publicly available information on the open web is not a computer crime
  
  Facebook scraping web scraping
Visit annotations in context

Tags

Facebook scraping

web scraping

Annotators

Perig

URL

eff.org/deeplinks/2018/04/dc-court-accessing-public-information-not-computer-crime
www.seleniumhq.org www.seleniumhq.org

Selenium - Web Browser Automation

1
1. Perig 10 Apr 2018
  
  in Public
  
  web scraping
Visit annotations in context

Tags

web scraping

Annotators

Perig

URL

seleniumhq.org/
petewarden.com petewarden.com

How I got sued by Facebook

3
1. Perig 10 Apr 2018
  
  in Public
  
  Pingback: Legality of Extracting Publicly Available User-Generated Content – PromptCloud Pingback: How to Scrape Facebook Posts for Free Content Ideas Pingback: Facebook data harvesting—what you need to know (From Phys.org) – Peter Schwartz
  
  important readings
  
  web scraping
2. Perig 10 Apr 2018
  
  in Public
  
  Google doesn’t use the facebook API to scrape facebook; they just scrape it.
  
  really?
  
  Facebook scraping
3. Perig 10 Apr 2018
  
  in Public
  
  This is an extremely important case to remember. It has implications for all Fb users who want to own their past.
  
  web scraping Facebook scraping Pete Warden
Visit annotations in context

Tags

Pete Warden

web scraping

Facebook scraping

Annotators

Perig

URL

petewarden.com/2010/04/05/how-i-got-sued-by-facebook/
github.com github.com

justinlittman/fbarc

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping
Visit annotations in context

Tags

Facebook scraping

Annotators

Perig

URL

github.com/justinlittman/fbarc
github.com github.com

kennethreitz/twitter-scraper

1
1. Perig 10 Apr 2018
  
  in Public
  
  web scraping Twitter scraping
Visit annotations in context

Tags

Twitter scraping

web scraping

Annotators

Perig

URL

github.com/kennethreitz/twitter-scraper
warcreate.com warcreate.com

WARCreate - Create WARC files from any webpage!

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping web scraping
Visit annotations in context

Tags

web scraping

Facebook scraping

Annotators

Perig

URL

warcreate.com/
www.cs.odu.edu www.cs.odu.edu

WAIL: Collection-Based Personal Web Archiving

1
1. Perig 10 Apr 2018
  
  in Public
  
  WAIL in Electron,
  
  web scraping Facebook scraping
Visit annotations in context

Tags

Facebook scraping

web scraping

Annotators

Perig

URL

cs.odu.edu/~mkelly/papers/2017_jcdl_wail.pdf
www.cs.odu.edu www.cs.odu.edu

Mat Kelly, PhD Student

1
1. Perig 10 Apr 2018
  
  in Public
  
  The author of the defunct ArchiveFacebook addon.
  
  Facebook scraping
Visit annotations in context

Tags

Facebook scraping

Annotators

Perig

URL

cs.odu.edu/~mkelly/
www.digitalpreservation.gov www.digitalpreservation.gov

Microsoft PowerPoint - Workshop3_Slides-ODU-C

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping
Visit annotations in context

Tags

Facebook scraping

Annotators

Perig

URL

digitalpreservation.gov/meetings/documents/ndiipp11/Workshop3_Slides-ODU-B.pdf
benbernardblog.com benbernardblog.com

Web Scraping and Crawling Are Perfectly Legal, Right?

1
1. Perig 10 Apr 2018
  
  in Public
  
  Need proof? In Linkedin v. Doe Defendants, Linkedin is suing between 1-100 people who anonymously scraped their website. And for what reasons are they suing those people? Let's see: Violation of the Computer Fraud and Abuse Act (CFAA). Violation of California Penal Code. Violation of the Digital Millennium Copyright Act (DMCA). Breach of contract. Trespass. Misappropriation.
  
  Linkedin lawsuit -- terrifying
  
  web scraping
Visit annotations in context

Tags

web scraping

Annotators

Perig

URL

benbernardblog.com/web-scraping-and-crawling-are-perfectly-legal-right/
www.promptcloud.com www.promptcloud.com

Don't get Blacklisted. Go for Legitimate Web Scraping. | | PromptCloud

1
1. Perig 10 Apr 2018
  
  in Public
  
  web scraping
Visit annotations in context

Tags

web scraping

Annotators

Perig

URL

promptcloud.com/blog/dont-get-blacklisted-legitimate-web-scraping-process
www.quora.com www.quora.com

Is scraping and displaying Facebook data legal? - Quora

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping
Visit annotations in context

Tags

Facebook scraping

Annotators

Perig

URL

quora.com/Is-scraping-and-displaying-Facebook-data-legal
www.quora.com www.quora.com

What is the best way to scrape Facebook data? - Quora

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping Facebook web scraping
Visit annotations in context

Tags

Facebook

web scraping

Facebook scraping

Annotators

Perig

URL

quora.com/What-is-the-best-way-to-scrape-Facebook-data
www.octoparse.com www.octoparse.com

How to Extract Data from Facebook | Octoparse

1
1. Perig 10 Apr 2018
  
  in Public
  
  Facebook scraping Facebook web scraping
Visit annotations in context

Tags

Facebook

web scraping

Facebook scraping

Annotators

Perig

URL

octoparse.com/tutorial/extract-facebook-data/
Mar 2018
scrapinghub.com scrapinghub.com

Scrapinghub: Turn websites into data

1
1. theresia 10 Mar 2018
  
  in Public
  
  Turn websites into structured data.
  
  scrapinghub web scraping
Visit annotations in context

Tags

scrapinghub

web scraping

Annotators

theresia

URL

scrapinghub.com/
Sep 2017
Local file Local file

Mobile technology appropriation in a distant mirror: Baroquization, creolization, and cannibalism

1
1. offray 12 Sep 2017
  
  in Public
  
  First, we view technology evolution as a three-stage cyclical process of adoption, appropriation, and repossession. Users drive adoption. Users and providers alternatively drive appropriation and repossession, as users lead appropriation, while providers react when reclaiming the resulting innova-tions. Second, we identify three appropriation modes—baroquize, creolize, and canni-balize—that represent increasing degrees of power contestation by users. And third, we identify three repossession modes—co-opt, combine, and block—that represent increas-ingly antagonistic reactions by providers and mirror users’ appropriation strategies.
  
  El documento como árbol es una convención fija inicial, para lograr cierto movimiento en el desarrollo de la plataforma y las dinámicas alrededor de la misma, pero dicha convención puede ser móvil después (como se indicaba en el primer texto sobre Grafoscopio). Textos rizomáticos o laberínticos como los presentados en la literatura latinoamericana (Cortazar, Borges) podrían ser construidos con Grafoscopio una vez la convención inicial se mueva. Esto implicaría pasar por las sucesivas fases e incluso "canibalizar" Grafoscopio al final, con la ventaja de que las tensiones entre proveedores y usuarios no son tan fuertes, pues son los usuarios los que se están proveyendo de tecnología a sí mismos y cambiándola por el camino. Los lugares de tensión ocurren cuando se manifiesta el caracter político de sus usos, por ejemplo haciendo web scrapping que viola los contenidos de los términos de uso de un sitio web (citar caso de Twitter).
  
  idea clave grafoscopio tesis scraping
Tags

tesis

idea clave

grafoscopio

scraping

Annotators

offray
Jul 2017
blog.scrapinghub.com blog.scrapinghub.com

Web Scraping to Create Open Data

1
1. jibe 10 Jul 2017
  
  in Public
  
  We shouldn’t have to create open data by scraping websites. This information should be already available, easily accessed and provided in a machine-readable format from the original providers, be they city councils or transportation companies. However, until there’s another option, we’ll always have scraping.
  
  scraping
Visit annotations in context

Tags

scraping

Annotators

jibe

URL

blog.scrapinghub.com/2016/03/30/web-scraping-to-create-open-data/