readab

readab est une interface REST minimaliste pour le module JS Readability. Il permet de récupérer le contenu textuel d'une page web.
Readability reproduit le comportement du mode lecture de Firefox. Il en a les défauts et les qualités.

readab is a minimalist REST interface for the Readability JS module. It grabs and returns the textual content of a web page.
Readability is a standalone version of the readability library used for Firefox Reader View. He has its faults and qualities.

GET /json/


Page content and page title in JSON

Parameters
  • url: url of a web page
Response

        {
        "title":"Laboratoire Lattice",
        "text":"Situation institutionelle\n
        Le Lattice est une unité mixte de recherche (UMR 8094) sous la double tutelle du CNRS et du Ministère de l’Education et de la Recherche qui est implanté sur deux sites : l’Ecole Normale supérieure et l’Université Paris 3 Sorbonne Nouvelle.\n
        Il participe à la Fédération de recherche Institut de Linguistique Française (I.L.F.) et il est rattaché à titre principal au département SHS et à titre secondaire au département STIC du CNRS.\n
        Objectifs scientifiques généraux\n
        Du noyau prédicatif au discours :- la grammaire au cœur de la construction du sens\n
        Les travaux conduits dans le laboratoire portent sur la diversité des formes linguistiques qui permettent d’exprimer de grandes catégories notionnelles telles que l’espace ou la comparaison, ainsi que celles qui contribuent à la structuration des discours en participant à l’ancrage des énoncés dans leur contexte et en signalant des relations entre les situations dénotées par ces énoncés.\n
        Ces études sont menées sur des corpus de français actuel et ancien, ou d’autres langues, à des fins de comparaison. Elles visent :\n
        à expliciter et modéliser les instructions interprétatives codées par ces expressions ; à mettre au jour les voies par lesquelles elles ont pu en diachronie acquérir de telles fonctions ; à mesurer et expliquer la façon dont les sujets les traitent dans la compréhension en temps réel ; à mettre au point et à offrir à la communauté des chercheurs des outils pour l’annotation et le traitement des données textuelles permettant d’expliciter leur valeur."
        }
        
Example #1
curl --request GET "http://apps.lattice.cnrs.fr/readab/json/?url=http://www.lattice.cnrs.fr/Le-laboratoire-LaTTiCe-en-quelques-mots"
Example #2

import requests, json
url = "http://apps.lattice.cnrs.fr/readab/json/"
param = dict(url='http://www.lattice.cnrs.fr/Le-laboratoire-LaTTiCe-en-quelques-mots')
resp = requests.get(url=url, params=param)
data = json.loads(resp.content)
text = data["text"]
	    

GET /html/


Page content in html

Parameters
  • url: url of a web page
Response

Situation institutionelle

Le Lattice est une unité mixte de recherche (UMR 8094) sous la double tutelle du CNRS et du Ministère de l’Education et de la Recherche qui est implanté sur deux sites : l’Ecole Normale supérieure et l’Université Paris 3 Sorbonne Nouvelle.

Il participe à la Fédération de recherche Institut de Linguistique Française (I.L.F.) et il est rattaché à titre principal au département SHS et à titre secondaire au département STIC du CNRS.

Objectifs scientifiques généraux

Du noyau prédicatif au discours :- la grammaire au cœur de la construction du sens

Les travaux conduits dans le laboratoire portent sur la diversité des formes linguistiques qui permettent d’exprimer de grandes catégories notionnelles telles que l’espace ou la comparaison, ainsi que celles qui contribuent à la structuration des discours en participant à l’ancrage des énoncés dans leur contexte et en signalant des relations entre les situations dénotées par ces énoncés.

Ces études sont menées sur des corpus de français actuel et ancien, ou d’autres langues, à des fins de comparaison.
Elles visent :

- à expliciter et modéliser les instructions interprétatives codées par ces expressions ;
- à mettre au jour les voies par lesquelles elles ont pu en diachronie acquérir de telles fonctions ;
- à mesurer et expliquer la façon dont les sujets les traitent dans la compréhension en temps réel ;
- à mettre au point et à offrir à la communauté des chercheurs des outils pour l’annotation et le traitement des données textuelles permettant d’expliciter leur valeur.

Example
curl --request GET "http://apps.lattice.cnrs.fr/readab/html/?url=http://www.lattice.cnrs.fr/Le-laboratoire-LaTTiCe-en-quelques-mots"