donotmerge: Add tool to analyze bulk-fetch performance.

I can clean this up if we ever want to have it in our permanent codebase, but for now I am most interested in learning stuff and having folks replicate or debunk the findings.
2023-07-21 09:23:27 +00:00 · 2023-07-21 09:23:27 +00:00 · 941a3d204e
parent 3255281a83
commit 941a3d204e
1 changed files with 231 additions and 0 deletions
--- a/tools/analyze.py
+++ b/tools/analyze.py
@ -0,0 +1,231 @@
+#!/usr/bin/env python3
+import os
+import sys
+import timeit
+
+import django
+from django.db import connection
+
+ZULIP_PATH = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+sys.path.insert(0, ZULIP_PATH)
+os.chdir(ZULIP_PATH)
+
+# check for the venv
+from tools.lib import sanity_check
+
+sanity_check.check_venv(__file__)
+
+os.environ["DJANGO_SETTINGS_MODULE"] = "zproject.settings"
+django.setup()
+
+from zerver.lib.cache import (
+    cache_delete,
+    display_recipient_cache_key,
+    generic_bulk_cached_fetch,
+    to_dict_cache_key_id,
+)
+from zerver.lib.display_recipient import (
+    display_recipient_fields,
+    single_user_display_recipient_cache_key,
+    user_dict_id_fetcher,
+)
+from zerver.lib.message import (
+    MessageDict,
+    extract_message_dict,
+    stringify_message_dict,
+)
+from zerver.models import Message, Stream, UserProfile
+
+
+def get_column_values_from_single_table_using_id_lookup(*, columns, table, id_field, ids):
+    if len(ids) == 0:
+        return []
+    column_list = ", ".join(columns)
+
+    for id in ids:
+        assert type(id) == int
+
+    id_list = ", ".join(str(id) for id in ids)
+
+    cursor = connection.cursor()
+    sql = f"SELECT {column_list} FROM {table} WHERE {id_field} in ({id_list})"
+    cursor.execute(sql)
+    desc = cursor.description
+    rows = [dict(zip((col[0] for col in desc), row)) for row in cursor.fetchall()]
+    cursor.close()
+    return rows
+
+
+def direct_db_fetch(
+    cache_key_function,
+    query_function,
+    object_ids,
+    *,
+    extractor,
+    setter,
+    id_fetcher,
+    cache_transformer,
+):
+    return {id_fetcher(row): cache_transformer(row) for row in query_function(list(object_ids))}
+
+
+def fetch(use_cache, *args, **kwargs):
+    f = generic_bulk_cached_fetch if use_cache else direct_db_fetch
+    return f(*args, **kwargs)
+
+
+def messages_for_ids(message_ids, *, use_cache):
+    # This is cribbed from real code, but it excludes some steps
+    # such as getting user-specific message flags.
+    cache_transformer = MessageDict.build_dict_from_raw_db_row
+    id_fetcher = lambda row: row["id"]
+
+    message_dicts = fetch(
+        use_cache,
+        to_dict_cache_key_id,
+        MessageDict.get_raw_db_rows,
+        message_ids,
+        id_fetcher=id_fetcher,
+        cache_transformer=cache_transformer,
+        extractor=extract_message_dict,
+        setter=stringify_message_dict,
+    )
+    return message_dicts
+
+
+def bulk_fetch_single_user_display_recipients(uids, *, use_cache, optimize):
+    if optimize:
+        query_function = lambda ids: get_column_values_from_single_table_using_id_lookup(
+            columns=display_recipient_fields,
+            table="zerver_userprofile",
+            id_field="id",
+            ids=ids,
+        )
+    else:
+        query_function = lambda ids: list(
+            UserProfile.objects.filter(id__in=ids).values(*display_recipient_fields)
+        )
+
+    return fetch(
+        use_cache,
+        cache_key_function=single_user_display_recipient_cache_key,
+        query_function=query_function,
+        object_ids=uids,
+        id_fetcher=user_dict_id_fetcher,
+        extractor=lambda obj: obj,
+        setter=lambda obj: obj,
+        cache_transformer=lambda obj: obj,
+    )
+
+
+def bulk_fetch_stream_names(stream_ids, *, use_cache, optimize):
+    # This is modified from the original version to deal just in stream ids
+    # and not recipient ids.
+
+    def get_tiny_stream_rows(ids):
+        if optimize:
+            return get_column_values_from_single_table_using_id_lookup(
+                columns=["id", "name"],
+                table="zerver_stream",
+                id_field="id",
+                ids=ids,
+            )
+        else:
+            return Stream.objects.filter(id__in=ids).values("id", "name")
+
+    def get_stream_id(row):
+        return row["id"]
+
+    def get_name(row):
+        return row["name"]
+
+    stream_display_recipients = fetch(
+        use_cache,
+        cache_key_function=display_recipient_cache_key,
+        query_function=get_tiny_stream_rows,
+        object_ids=stream_ids,
+        id_fetcher=get_stream_id,
+        cache_transformer=get_name,
+        setter=lambda obj: obj,
+        extractor=lambda obj: obj,
+    )
+
+    return stream_display_recipients
+
+
+def run(f):
+    print()
+    print(f"===== Running {f.__name__}")
+    f()
+
+
+@run
+def benchmark_stream_fetching():
+    def run(num_ids, *, use_cache, optimize=False):
+        stream_ids = Stream.objects.all()[:num_ids].values_list("id", flat=True)
+        assert len(stream_ids) == num_ids
+
+        label = "memcache" if use_cache else "optimize" if optimize else "database"
+        # warm up cache
+        if use_cache:
+            bulk_fetch_stream_names(stream_ids, use_cache=True, optimize=False)
+
+        f = lambda: bulk_fetch_stream_names(stream_ids, use_cache=use_cache, optimize=optimize)
+        number = 200
+        cost = min(timeit.repeat(f, number=number, repeat=5))
+        print(label, 1000 * cost / (num_ids * number), "(milliseconds per row)")
+
+    for n in [1, 5, 10, 15]:
+        print(f"Testing with {n} stream ids")
+        run(n, use_cache=False)
+        run(n, use_cache=False, optimize=True)
+        run(n, use_cache=True)
+        print()
+
+
+@run
+def benchmark_user_fetching():
+    def run(num_ids, *, use_cache, optimize=False):
+        user_ids = UserProfile.objects.all()[:num_ids].values_list("id", flat=True)
+        assert len(user_ids) == num_ids
+
+        label = "memcache" if use_cache else "optimize" if optimize else "database"
+        # warm up cache
+        if use_cache:
+            for user_id in user_ids:
+                cache_delete(single_user_display_recipient_cache_key(user_id))
+            bulk_fetch_single_user_display_recipients(user_ids, use_cache=True, optimize=False)
+
+        f = lambda: bulk_fetch_single_user_display_recipients(
+            user_ids, use_cache=use_cache, optimize=optimize
+        )
+        number = 200
+        cost = min(timeit.repeat(f, number=number, repeat=5))
+        print(label, 1000 * cost / (num_ids * number), "(milliseconds per row)")
+
+    for n in [1, 5, 10, 15, 20, 30, 50]:
+        print(f"Testing with {n} user ids")
+        run(n, use_cache=False)
+        run(n, use_cache=False, optimize=True)
+        run(n, use_cache=True)
+        print()
+
+
+@run
+def benchmark_message_fetching():
+    def run(num_ids, *, use_cache):
+        print(f"Testing with {num_ids} message ids")
+        message_ids = Message.objects.all()[:num_ids].values_list("id", flat=True)
+        assert len(message_ids) == num_ids
+        label = "memcache" if use_cache else "database"
+        # warm up cache
+        if use_cache:
+            messages_for_ids(message_ids, use_cache=True)
+
+        f = lambda: messages_for_ids(message_ids, use_cache=use_cache)
+        number = 10
+        cost = min(timeit.repeat(f, number=number, repeat=3))
+        print(label, 1000 * cost / (num_ids * number), "(milliseconds per row)")
+
+    run(20, use_cache=False)
+    run(20, use_cache=True)