linkchecker/linkcheck/htmlutil/linkname.py

# -*- coding: iso-8859-1 -*-
# Copyright (C) 2001-2010 Bastian Kleineidam
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation; either version 2 of the License, or
# (at your option) any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License along
# with this program; if not, write to the Free Software Foundation, Inc.,
# 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
"""
Parse names of title tags and link types.
"""

import re
from .. import HtmlParser, strformat


imgtag_re = re.compile(r"(?i)\s+alt\s*=\s*"+\
                       r"""(?P<name>("[^"\n]*"|'[^'\n]*'|[^\s>]+))""")
img_re = re.compile(r"""(?i)<\s*img\s+("[^"\n]*"|'[^'\n]*'|[^>])+>""")


def endtag_re (tag):
    """Return matcher for given end tag"""
    return re.compile(r"(?i)</%s\s*>" % tag)

a_end_search = endtag_re("a").search
title_end_search = endtag_re("title").search


def _unquote (txt):
    """Resolve entities and remove markup from txt."""
    return HtmlParser.resolve_entities(strformat.remove_markup(txt))


def image_name (txt):
    """Return the alt part of the first <img alt=""> tag in txt."""
    mo = imgtag_re.search(txt)
    if mo:
        name = strformat.unquote(mo.group('name').strip())
        return  _unquote(name)
    return u''


def href_name (txt):
    """Return the name part of the first <a href="">name</a> link in txt."""
    name = u""
    endtag = a_end_search(txt)
    if not endtag:
        return name
    name = txt[:endtag.start()]
    if img_re.search(name):
        return image_name(name)
    return _unquote(name)


def title_name (txt):
    """Return the part of the first <title>name</title> in txt."""
    name = u""
    endtag = title_end_search(txt)
    if not endtag:
        return name
    name = txt[:endtag.start()]
    return _unquote(name)
add coding line git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@933 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2003-07-04 14:24:44 +00:00			`# -- coding: iso-8859-1 --`
Set copyright. 2010-03-26 19:51:59 +00:00			`# Copyright (C) 2001-2010 Bastian Kleineidam`
new debugging git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@266 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-05-23 21:20:44 +00:00			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License as published by`
			`# the Free Software Foundation; either version 2 of the License, or`
			`# (at your option) any later version.`
			`#`
			`# This program is distributed in the hope that it will be useful,`
			`# but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the`
			`# GNU General Public License for more details.`
			`#`
Updated FSF address in GPL blurb 2009-07-24 21:58:20 +00:00			`# You should have received a copy of the GNU General Public License along`
			`# with this program; if not, write to the Free Software Foundation, Inc.,`
			`# 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.`
documentation syntax git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@2163 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2005-01-19 15:08:02 +00:00			`"""`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00			`Parse names of title tags and link types.`
documentation syntax git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@2163 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2005-01-19 15:08:02 +00:00			`"""`
new debugging git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@266 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-05-23 21:20:44 +00:00
new module layout git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1356 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-07-07 18:04:40 +00:00			`import re`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00			`from .. import HtmlParser, strformat`
new module layout git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1356 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-07-07 18:04:40 +00:00
prerelease git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@249 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-04-28 18:37:10 +00:00
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`imgtag_re = re.compile(r"(?i)\s+alt\s=\s"+\`
			`r"""(?P<name>("[^"\n]"\|'[^'\n]'\|[^\s>]+))""")`
optimize img_re regular expression git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1919 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-11-06 12:43:48 +00:00			`img_re = re.compile(r"""(?i)<\simg\s+("[^"\n]"\|'[^'\n]*'\|[^>])+>""")`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00
pep8-ify the source a little more 2010-03-13 07:47:12 +00:00
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00			`def endtag_re (tag):`
			`"""Return matcher for given end tag"""`
			`return re.compile(r"(?i)</%s\s*>" % tag)`

			`a_end_search = endtag_re("a").search`
			`title_end_search = endtag_re("title").search`
prerelease git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@249 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-04-28 18:37:10 +00:00
pep8-ify the source a little more 2010-03-13 07:47:12 +00:00
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`def _unquote (txt):`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00			`"""Resolve entities and remove markup from txt."""`
Require and use Python 2.5 Use Python 2.5 features and get rid of old compat code. Also some code cleanups have been made. git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3737 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-04-27 11:39:21 +00:00			`return HtmlParser.resolve_entities(strformat.remove_markup(txt))`
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`def image_name (txt):`
Require and use Python 2.5 Use Python 2.5 features and get rid of old compat code. Also some code cleanups have been made. git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3737 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-04-27 11:39:21 +00:00			`"""Return the alt part of the first <img alt=""> tag in txt."""`
prerelease git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@249 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-04-28 18:37:10 +00:00			`mo = imgtag_re.search(txt)`
			`if mo:`
Require and use Python 2.5 Use Python 2.5 features and get rid of old compat code. Also some code cleanups have been made. git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3737 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-04-27 11:39:21 +00:00			`name = strformat.unquote(mo.group('name').strip())`
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`return _unquote(name)`
unicode fixes git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1911 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-11-03 21:29:25 +00:00			`return u''`
prerelease git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@249 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2001-04-28 18:37:10 +00:00

source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`def href_name (txt):`
Require and use Python 2.5 Use Python 2.5 features and get rid of old compat code. Also some code cleanups have been made. git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3737 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-04-27 11:39:21 +00:00			`"""Return the name part of the first <a href="">name</a> link in txt."""`
unicode fixes git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1911 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-11-03 21:29:25 +00:00			`name = u""`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00			`endtag = a_end_search(txt)`
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`if not endtag:`
			`return name`
tests, linkname git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@475 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2002-06-09 15:32:14 +00:00			`name = txt[:endtag.start()]`
			`if img_re.search(name):`
			`return image_name(name)`
source code restructuring git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@1423 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2004-08-16 19:20:53 +00:00			`return _unquote(name)`
Moved link and title parsing into htmlutil package git-svn-id: https://linkchecker.svn.sourceforge.net/svnroot/linkchecker/trunk/linkchecker@3789 e7d03fd6-7b0d-0410-9947-9c21f3af8025 2008-06-07 13:07:48 +00:00

			`def title_name (txt):`
			`"""Return the part of the first <title>name</title> in txt."""`
			`name = u""`
			`endtag = title_end_search(txt)`
			`if not endtag:`
			`return name`
			`name = txt[:endtag.start()]`
			`return _unquote(name)`