nemubot/modules/ddg/Wikipedia.py

# coding=utf-8

import re
from urllib.parse import quote
import urllib.request

import xmlparser

class Wikipedia:
    def __init__(self, terms, lang="fr", site="wikipedia.org", section=0):
        self.terms = terms
        self.lang = lang
        self.curRT = section

        raw = urllib.request.urlopen(urllib.request.Request("http://" + self.lang + "." + site + "/w/api.php?format=xml&redirects&action=query&prop=revisions&rvprop=content&titles=%s" % (quote(terms)), headers={"User-agent": "Nemubot v3"}))
        self.wres = xmlparser.parse_string(raw.read())
        if self.wres is None or not (self.wres.hasNode("query") and self.wres.getFirstNode("query").hasNode("pages") and self.wres.getFirstNode("query").getFirstNode("pages").hasNode("page") and self.wres.getFirstNode("query").getFirstNode("pages").getFirstNode("page").hasNode("revisions")):
            self.wres = None
        else:
            self.wres = self.wres.getFirstNode("query").getFirstNode("pages").getFirstNode("page").getFirstNode("revisions").getFirstNode("rev").getContent()
            self.wres = striplink(self.wres)

    @property
    def nextRes(self):
        if self.wres is not None:
            for cnt in self.wres.split("\n"):
                if self.curRT > 0:
                    self.curRT -= 1
                    continue

                (c, u) = RGXP_s.subn(' ', cnt)
                c = c.strip()
                if c != "":
                    yield c

RGXP_p = re.compile(r"(<!--.*-->|<ref[^>]*/>|<ref[^>]*>[^>]*</ref>|<dfn[^>]*>[^>]*</dfn>|\{\{[^{}]*\}\}|\[\[([^\[\]]*\[\[[^\]\[]*\]\])+[^\[\]]*\]\]|\{\{([^{}]*\{\{[^{}]*\}\}[^{}]*)+\}\}|\{\{([^{}]*\{\{([^{}]*\{\{[^{}]*\}\}[^{}]*)+\}\}[^{}]*)+\}\}|\[\[[^\]|]+(\|[^\]\|]+)*\]\])|#\* ''" + "\n", re.I)
RGXP_l = re.compile(r'\{\{(nobr|lang\|[^|}]+)\|([^}]+)\}\}', re.I)
RGXP_m = re.compile(r'\{\{pron\|([^|}]+)\|[^}]+\}\}', re.I)
RGXP_t = re.compile("==+ *([^=]+) *=+=\n+([^\n])", re.I)
RGXP_q = re.compile(r'\[\[([^\[\]|]+)\|([^\]|]+)]]', re.I)
RGXP_r = re.compile(r'\[\[([^\[\]|]+)\]\]', re.I)
RGXP_s = re.compile(r'\s+')

def striplink(s):
    s.replace("{{m}}", "masculin").replace("{{f}}", "feminin").replace("{{n}}", "neutre")
    (s, n) = RGXP_m.subn(r"[\1]", s)
    (s, n) = RGXP_l.subn(r"\2", s)

    (s, n) = RGXP_q.subn(r"\1", s)
    (s, n) = RGXP_r.subn(r"\1", s)

    (s, n) = RGXP_p.subn('', s)
    if s == "": return s

    (s, n) = RGXP_t.subn("\x03\x16" + r"\1" + " :\x03\x16 " + r"\2", s)
    return s.replace("'''", "\x03\x02").replace("''", "\x03\x1f")
Module DDG: add Wikipedia API 2012-07-24 15:56:20 +00:00			`# coding=utf-8`

			`import re`
			`from urllib.parse import quote`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`import urllib.request`
Module DDG: add Wikipedia API 2012-07-24 15:56:20 +00:00
Convert DDG/WFA/Wiki module to nemubot 3.2 2012-08-31 00:58:28 +00:00			`import xmlparser`
Module DDG: add Wikipedia API 2012-07-24 15:56:20 +00:00
			`class Wikipedia:`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`def __init__(self, terms, lang="fr", site="wikipedia.org", section=0):`
Convert DDG/WFA/Wiki module to nemubot 3.2 2012-08-31 00:58:28 +00:00			`self.terms = terms`
			`self.lang = lang`
Using newly added Python decorator for hook registration 2014-08-12 18:10:19 +00:00			`self.curRT = section`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00
			`raw = urllib.request.urlopen(urllib.request.Request("http://" + self.lang + "." + site + "/w/api.php?format=xml&redirects&action=query&prop=revisions&rvprop=content&titles=%s" % (quote(terms)), headers={"User-agent": "Nemubot v3"}))`
			`self.wres = xmlparser.parse_string(raw.read())`
			`if self.wres is None or not (self.wres.hasNode("query") and self.wres.getFirstNode("query").hasNode("pages") and self.wres.getFirstNode("query").getFirstNode("pages").hasNode("page") and self.wres.getFirstNode("query").getFirstNode("pages").getFirstNode("page").hasNode("revisions")):`
Convert DDG/WFA/Wiki module to nemubot 3.2 2012-08-31 00:58:28 +00:00			`self.wres = None`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`else:`
			`self.wres = self.wres.getFirstNode("query").getFirstNode("pages").getFirstNode("page").getFirstNode("revisions").getFirstNode("rev").getContent()`
Using newly added Python decorator for hook registration 2014-08-12 18:10:19 +00:00			`self.wres = striplink(self.wres)`
Convert DDG/WFA/Wiki module to nemubot 3.2 2012-08-31 00:58:28 +00:00
			`@property`
			`def nextRes(self):`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00			`if self.wres is not None:`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`for cnt in self.wres.split("\n"):`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00			`if self.curRT > 0:`
			`self.curRT -= 1`
			`continue`
Module DDG: add Wikipedia API 2012-07-24 15:56:20 +00:00
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`(c, u) = RGXP_s.subn(' ', cnt)`
			`c = c.strip()`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00			`if c != "":`
			`yield c`

Wikipedia module: simplify a regexp 2012-11-09 10:56:23 +00:00			`RGXP_p = re.compile(r"(<!--.-->\|<ref[^>]/>\|<ref[^>]>[^>]</ref>\|<dfn[^>]>[^>]</dfn>\|\{\{[^{}]\}\}\|\[\[([^\[\]]\[\[[^\]\[]\]\])+[^\[\]]\]\]\|\{\{([^{}]\{\{[^{}]\}\}[^{}])+\}\}\|\{\{([^{}]\{\{([^{}]\{\{[^{}]\}\}[^{}])+\}\}[^{}])+\}\}\|\[\[[^\]\|]+(\\|[^\]\\|]+)\]\])\|#\ ''" + "\n", re.I)`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`RGXP_l = re.compile(r'\{\{(nobr\|lang\\|[^\|}]+)\\|([^}]+)\}\}', re.I)`
Parse Wiktionary 2012-11-07 14:37:17 +00:00			`RGXP_m = re.compile(r'\{\{pron\\|([^\|}]+)\\|[^}]+\}\}', re.I)`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`RGXP_t = re.compile("==+ ([^=]+) =+=\n+([^\n])", re.I)`
			`RGXP_q = re.compile(r'\[\[([^\[\]\|]+)\\|([^\]\|]+)]]', re.I)`
			`RGXP_r = re.compile(r'\[\[([^\[\]\|]+)\]\]', re.I)`
			`RGXP_s = re.compile(r'\s+')`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`def striplink(s):`
Parse Wiktionary 2012-11-07 14:37:17 +00:00			`s.replace("{{m}}", "masculin").replace("{{f}}", "feminin").replace("{{n}}", "neutre")`
			`(s, n) = RGXP_m.subn(r"[\1]", s)`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`(s, n) = RGXP_l.subn(r"\2", s)`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`(s, n) = RGXP_q.subn(r"\1", s)`
			`(s, n) = RGXP_r.subn(r"\1", s)`
Wiki: better escape of infobox 2012-10-04 11:46:11 +00:00
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`(s, n) = RGXP_p.subn('', s)`
Parse Wiktionary 2012-11-07 14:37:17 +00:00			`if s == "": return s`

			`(s, n) = RGXP_t.subn("\x03\x16" + r"\1" + " :\x03\x16 " + r"\2", s)`
Use url.request in DDG module; fix issue #1: output for Wiki is better 2012-11-07 13:39:47 +00:00			`return s.replace("'''", "\x03\x02").replace("''", "\x03\x1f")`