Add support for JSON Feed

2024-01-20 17:28:31 +00:00 · 2024-01-20 17:28:31 +00:00 · 0512e14738
commit 0512e14738
parent 4c84f40e0e
5 changed files with 346 additions and 9 deletions
--- a/README.md
+++ b/README.md
@ -14,21 +14,33 @@ Slixfeed is primarily designed for XMPP (aka Jabber), yet it is built to be exte

 ### Features

-#### Simultaneous
-
-Slixfeed is designed to handle multiple contacts, including groupchats, Simultaneously.
-
 #### Ease

 Slixfeed automatically scans (i.e. crawls) for web feeds of given URL.

+#### Export
+
+Download articles as ePUB, HTML, Markdown and PDF.
+
 #### Filtering

-Slixfeed provides positive and nagative ways to filter by allow and deny lists.
+Filter using lists of allow and deny.
+
+#### Multimedia
+
+Display audios pictures and videos inline.
+
+#### Portable
+
+Export and import feeds with a standard OPML file.

 #### Proxy

-Redirect to alternative online back-ends, such as Invidious, Librarian, Nitter, for increased privacy and productivity and security.
+Redirect to alternative back-ends, such as Invidious, Librarian, Nitter, for increased privacy, productivity and security.
+
+#### Simultaneous
+
+Slixfeed is designed to handle multiple contacts, including groupchats, Simultaneously.

 ## Getting Started

--- a/slixfeed/init.py
+++ b/slixfeed/init.py
@ -0,0 +1 @@
+__version__ = "1.0.0"
--- a/slixfeed/action.py
+++ b/slixfeed/action.py
@ -26,8 +26,9 @@ TODO

 from asyncio.exceptions import IncompleteReadError
 from bs4 import BeautifulSoup
-from http.client import IncompleteRead
 from feedparser import parse
+from http.client import IncompleteRead
+import json
 import logging
 from lxml import html
 import slixfeed.config as config
@ -102,6 +103,38 @@ def log_to_markdown(timestamp, filename, jid, message):
        file.write(entry)


+def is_feed_json(document):
+    """
+
+    NOTE /kurtmckee/feedparser/issues/103
+
+    Determine whether document is json feed or not.
+
+    Parameters
+    ----------
+    feed : dict
+        Parsed feed.
+
+    Returns
+    -------
+    val : boolean
+        True or False.
+    """
+    value = False
+    feed = json.loads(document)
+    if not feed['items']:
+        if "version" in feed.keys():
+            if 'jsonfeed' in feed['version']:
+                value = True
+        # elif 'title' in feed.keys():
+        #     value = True
+        else:
+            value = False
+    else:
+        value = True
+    return value
+
+
 def is_feed(feed):
    """
    Determine whether document is feed or not.
@ -120,7 +153,7 @@ def is_feed(feed):
    # message = None
    if not feed.entries:
        if "version" in feed.keys():
-            feed["version"]
+            # feed["version"]
            if feed.version:
                value = True
                # message = (
@ -471,6 +504,53 @@ async def add_feed(db_file, url):
                        "added to subscription list."
                        ).format(url, title)
                    break
+                # NOTE This elif statement be unnecessary
+                # when feedparser be supporting json feed.
+                elif is_feed_json(document):
+                    feed = json.loads(document)
+                    if "title" in feed.keys():
+                        title = feed["title"]
+                    else:
+                        title = urlsplit(url).netloc
+                    if "language" in feed.keys():
+                        language = feed["language"]
+                    else:
+                        language = ''
+                    if "encoding" in feed.keys():
+                        encoding = feed["encoding"]
+                    else:
+                        encoding = ''
+                    if "date_published" in feed.keys():
+                        updated = feed["date_published"]
+                        try:
+                            updated = convert_struct_time_to_iso8601(updated)
+                        except:
+                            updated = ''
+                    else:
+                        updated = ''
+                    version = 'json' + feed["version"].split('/').pop()
+                    entries = len(feed["items"])
+                    await sqlite.insert_feed(
+                        db_file, url,
+                        title=title,
+                        entries=entries,
+                        version=version,
+                        encoding=encoding,
+                        language=language,
+                        status_code=status_code,
+                        updated=updated
+                        )
+                    await scan_json(
+                        db_file, url)
+                    old = await get_setting_value(db_file, "old")
+                    if not old:
+                        await sqlite.mark_feed_as_read(
+                            db_file, url)
+                    response = (
+                        "> {}\nNews source \"{}\" has been "
+                        "added to subscription list."
+                        ).format(url, title)
+                    break
                else:
                    result = await crawl.probe_page(
                        url, document)
@ -496,6 +576,144 @@ async def add_feed(db_file, url):
    return response


+async def scan_json(db_file, url):
+    """
+    Check feeds for new entries.
+
+    Parameters
+    ----------
+    db_file : str
+        Path to database file.
+    url : str, optional
+        URL. The default is None.
+    """
+    if isinstance(url, tuple): url = url[0]
+    result = await fetch.http(url)
+    try:
+        document = result[0]
+        status = result[1]
+    except:
+        return
+    new_entries = []
+    if document and status == 200:
+        feed = json.loads(document)
+        entries = feed["items"]
+        await remove_nonexistent_entries_json(
+            db_file, url, feed)
+        try:
+            feed_id = await sqlite.get_feed_id(db_file, url)
+            # await sqlite.update_feed_validity(
+            #     db_file, feed_id, valid)
+            if "date_published" in feed.keys():
+                updated = feed["date_published"]
+                try:
+                    updated = convert_struct_time_to_iso8601(updated)
+                except:
+                    updated = ''
+            else:
+                updated = ''
+            feed_id = await sqlite.get_feed_id(db_file, url)
+            await sqlite.update_feed_properties(
+                db_file, feed_id, len(feed["items"]), updated)
+            # await update_feed_status
+        except (
+                IncompleteReadError,
+                IncompleteRead,
+                error.URLError
+                ) as e:
+            logging.error(e)
+            return
+        # new_entry = 0
+        for entry in entries:
+            if "date_published" in entry.keys():
+                date = entry["date_published"]
+                date = rfc2822_to_iso8601(date)
+            elif "date_modified" in entry.keys():
+                date = entry["date_modified"]
+                date = rfc2822_to_iso8601(date)
+            else:
+                date = now()
+            if "url" in entry.keys():
+                # link = complete_url(source, entry.link)
+                link = join_url(url, entry["url"])
+                link = trim_url(link)
+            else:
+                link = url
+            # title = feed["feed"]["title"]
+            # title = "{}: *{}*".format(feed["feed"]["title"], entry.title)
+            title = entry["title"] if "title" in entry.keys() else date
+            entry_id = entry["id"] if "id" in entry.keys() else link
+            feed_id = await sqlite.get_feed_id(db_file, url)
+            exist = await sqlite.check_entry_exist(
+                db_file, feed_id, entry_id=entry_id,
+                title=title, link=link, date=date)
+            if not exist:
+                summary = entry["summary"] if "summary" in entry.keys() else ''
+                if not summary:
+                    summary = entry["content_html"] if "content_html" in entry.keys() else ''
+                if not summary:
+                    summary = entry["content_text"] if "content_text" in entry.keys() else ''
+                read_status = 0
+                pathname = urlsplit(link).path
+                string = (
+                    "{} {} {}"
+                    ).format(
+                        title, summary, pathname)
+                allow_list = await config.is_include_keyword(
+                    db_file, "filter-allow", string)
+                if not allow_list:
+                    reject_list = await config.is_include_keyword(
+                        db_file, "filter-deny", string)
+                    if reject_list:
+                        read_status = 1
+                        logging.debug(
+                            "Rejected : {}\n"
+                            "Keyword  : {}".format(
+                                link, reject_list))
+                if isinstance(date, int):
+                    logging.error(
+                        "Variable 'date' is int: {}".format(date))
+                media_link = ''
+                if "attachments" in entry.keys():
+                    for e_link in entry["attachments"]:
+                        try:
+                            # if (link.rel == "enclosure" and
+                            #     (link.type.startswith("audio/") or
+                            #      link.type.startswith("image/") or
+                            #      link.type.startswith("video/"))
+                            #     ):
+                            media_type = e_link["mime_type"][:e_link["mime_type"].index("/")]
+                            if media_type in ("audio", "image", "video"):
+                                media_link = e_link["url"]
+                                media_link = join_url(url, e_link["url"])
+                                media_link = trim_url(media_link)
+                                break
+                        except:
+                            logging.error(
+                                "KeyError: 'url'\n"
+                                "Missing 'url' attribute for {}".format(url))
+                            logging.info(
+                                "Continue scanning for next potential "
+                                "enclosure of {}".format(link))
+                entry = {
+                    "title": title,
+                    "link": link,
+                    "enclosure": media_link,
+                    "entry_id": entry_id,
+                    "date": date,
+                    "read_status": read_status
+                    }
+                new_entries.extend([entry])
+                # await sqlite.add_entry(
+                #     db_file, title, link, entry_id,
+                #     url, date, read_status)
+                # await sqlite.set_date(db_file, url)
+    if len(new_entries):
+        feed_id = await sqlite.get_feed_id(db_file, url)
+        await sqlite.add_entries_and_update_timestamp(
+            db_file, feed_id, new_entries)
+
+
 async def view_feed(url):
    while True:
        result = await fetch.http(url)
@ -845,7 +1063,6 @@ async def extract_image_from_feed(db_file, feed_id, url):
                logging.error(url)
                logging.error(
                    "AttributeError: object has no attribute 'link'")
-                breakpoint()


 async def extract_image_from_html(url):
@ -1024,3 +1241,75 @@ async def remove_nonexistent_entries(db_file, url, feed):
                await sqlite.archive_entry(db_file, ix)
        limit = await get_setting_value(db_file, "archive")
        await sqlite.maintain_archive(db_file, limit)
+
+
+
+async def remove_nonexistent_entries_json(db_file, url, feed):
+    """
+    Remove entries that don't exist in a given parsed feed.
+    Check the entries returned from feed and delete read non
+    existing entries, otherwise move to table archive, if unread.
+
+    Parameters
+    ----------
+    db_file : str
+        Path to database file.
+    url : str
+        Feed URL.
+    feed : list
+        Parsed feed document.
+    """
+    feed_id = await sqlite.get_feed_id(db_file, url)
+    items = await sqlite.get_entries_of_feed(db_file, feed_id)
+    entries = feed["items"]
+    for item in items:
+        ix = item[0]
+        entry_title = item[1]
+        entry_link = item[2]
+        entry_id = item[3]
+        timestamp = item[4]
+        read_status = item[5]
+        valid = False
+        for entry in entries:
+            title = None
+            link = None
+            time = None
+            # valid = False
+            # TODO better check and don't repeat code
+            if entry.has_key("id") and entry_id:
+                if entry["id"] == entry_id:
+                    # print("compare1:", entry.id)
+                    # print("compare2:", entry_id)
+                    # print("============")
+                    valid = True
+                    break
+            else:
+                if entry.has_key("title"):
+                    title = entry["title"]
+                else:
+                    title = feed["title"]
+                if entry.has_key("link"):
+                    link = join_url(url, entry["link"])
+                else:
+                    link = url
+                # "date_published" "date_modified"
+                if entry.has_key("date_published") and timestamp:
+                    time = rfc2822_to_iso8601(entry["date_published"])
+                    if (entry_title == title and
+                        entry_link == link and
+                        timestamp == time):
+                        valid = True
+                        break
+                else:
+                    if (entry_title == title and
+                        entry_link == link):
+                        valid = True
+                        break
+        if not valid:
+            print("CHECK ENTRY OF JSON FEED IN ARCHIVE")
+            if read_status == 1:
+                await sqlite.delete_entry_by_id(db_file, ix)
+            else:
+                await sqlite.archive_entry(db_file, ix)
+        limit = await get_setting_value(db_file, "archive")
+        await sqlite.maintain_archive(db_file, limit)
--- a/slixfeed/crawl.py
+++ b/slixfeed/crawl.py
@ -15,6 +15,39 @@ TODO

 2) Consider merging with module fetch.py

+3) Mark redirects for manual check
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/atom.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/feed.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/feeds/rss/news.xml.php
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/jekyll/feed.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/news.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/news.xml.php
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/rdf.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/rss.xml
+
+Title : JSON Feed
+Link  : https://www.jsonfeed.org/feed.json/videos.xml
+
+
 """

 from aiohttp import ClientError, ClientSession, ClientTimeout
--- a/slixfeed/version.py
+++ b/slixfeed/version.py
@ -0,0 +1,2 @@
+__version__ = '1.0.0'
+__version_info__ = (1, 0, 0)