Opdater README: QuickXorHash er nu fuldt implementeret

Beskrivelsen af Smart Skip & Integritet er opdateret fra "forbereder til hash-validering" til at afspejle at QuickXorHash nu er aktivt — korrupte filer med korrekt størrelse detekteres og re-downloades automatisk. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
Ret fire fejl i download_sharepoint.py
2026-03-27 14:40:18 +01:00 · 2026-03-27 14:39:27 +01:00
2 changed files with 49 additions and 19 deletions
--- a/README.md
+++ b/README.md
@@ -12,7 +12,7 @@ Dette script gør det muligt at downloade specifikke mapper fra et SharePoint do
 *   **Exponential Backoff:** Håndterer automatisk Microsoft Graph throttling (`429 Too Many Requests`) og netværksfejl med intelligente genforsøg.
 *   **Struktureret Logging:** Gemmer detaljerede logs i `sharepoint_download.log` samt en CSV-fejlrapport for hver kørsel.
 *   **Paginering:** Håndterer automatisk mapper med mere end 200 elementer via `@odata.nextLink`.
-*   **Smart Skip & Integritet:** Skipper filer der allerede findes lokalt med korrekt størrelse, og forbereder til hash-validering (QuickXorHash).
+*   **Smart Skip & Integritet:** Skipper filer der allerede findes lokalt med korrekt størrelse og bestået QuickXorHash-validering. Filer med korrekt størrelse men forkert indhold (korrupt) detekteres og re-downloades automatisk.
 *   **Entra ID Integration:** Benytter MSAL for sikker godkendelse via Client Credentials flow med automatisk token-refresh.

 ## Installation
--- a/download_sharepoint.py
+++ b/download_sharepoint.py
@@ -30,10 +30,11 @@ logger = logging.getLogger(__name__)
 report_lock = threading.Lock()

 def format_size(size_bytes):
-    for unit in ['B', 'KB', 'MB', 'GB', 'TB']:
+    for unit in ['B', 'KB', 'MB', 'GB', 'TB', 'PB']:
        if size_bytes < 1024.0:
            return f"{size_bytes:.2f} {unit}"
        size_bytes /= 1024.0
+    return f"{size_bytes:.2f} EB"

 def load_config(file_path):
    config = {}
@@ -68,18 +69,43 @@ def retry_request(func):
                    raise e
                logger.error(f"Request failed: {e}. Retrying in {wait}s...")
                time.sleep(wait)
-        return None
+        raise requests.exceptions.RetryError(f"Max retries ({MAX_RETRIES}) exceeded.")
    return wrapper

@retry_request
 def safe_get(url, headers, stream=False, timeout=60, params=None):
    return requests.get(url, headers=headers, stream=stream, timeout=timeout, params=params)

-# --- Punkt 4: Integrity Validation (QuickXorHash - Placeholder for full logic) ---
+# --- Punkt 4: Integrity Validation (QuickXorHash) ---
+def quickxorhash(file_path):
+    """Compute Microsoft QuickXorHash for a file. Returns base64-encoded string.
+    Uses 3 × uint64 cells matching Microsoft's C# reference implementation."""
+    SHIFT = 11
+    WIDTH = 160
+    data = [0, 0, 0]  # 3 × 64-bit unsigned integers
+    i = 0
+    with open(file_path, 'rb') as f:
+        while True:
+            chunk = f.read(CHUNK_SIZE)
+            if not chunk:
+                break
+            for byte in chunk:
+                bit_idx = (i * SHIFT) % WIDTH
+                cell = bit_idx // 64
+                shift = bit_idx % 64
+                data[cell] = (data[cell] ^ (byte << shift)) & 0xFFFFFFFFFFFFFFFF
+                i += 1
+    result = struct.pack('<QQQ', data[0], data[1], data[2])
+    return base64.b64encode(result[:20]).decode('ascii')
+
 def verify_integrity(local_path, remote_hash):
-    """Placeholder for QuickXorHash verification."""
+    """Verifies file integrity using Microsoft QuickXorHash."""
    if not remote_hash:
-        return True # Fallback to size check
+        return True  # Intet hash fra remote; fald tilbage til størrelses-check
+    local_hash = quickxorhash(local_path)
+    if local_hash != remote_hash:
+        logger.warning(f"Hash mismatch for {local_path}: local={local_hash}, remote={remote_hash}")
+        return False
    return True

 def get_headers(app, force_refresh=False):
@@ -154,8 +180,12 @@ def download_single_file(app, drive_id, item_id, local_path, expected_size, disp
        if os.path.exists(local_path):
            existing_size = os.path.getsize(local_path)
            if existing_size == expected_size:
-                logger.info(f"Skipped (complete): {display_name}")
-                return True, None
+                if verify_integrity(local_path, remote_hash):
+                    logger.info(f"Skipped (complete): {display_name}")
+                    return True, None
+                else:
+                    logger.warning(f"Hash mismatch on existing file: {display_name}. Re-downloading.")
+                    existing_size = 0
            elif existing_size < expected_size:
                logger.info(f"Resuming: {display_name} from {format_size(existing_size)}")
                resume_header = {'Range': f'bytes={existing_size}-'}
@@ -173,18 +203,18 @@ def download_single_file(app, drive_id, item_id, local_path, expected_size, disp
            if not download_url:
                return False, f"Could not fetch initial URL: {err}"

-        response = requests.get(download_url, headers=resume_header, stream=True, timeout=120)
-        
-        # Handle 401 Unauthorized from SharePoint (expired download link)
-        if response.status_code == 401:
-            logger.warning(f"URL expired for {display_name}. Fetching fresh URL...")
-            download_url, err = get_fresh_download_url(app, drive_id, item_id)
-            if not download_url:
-                return False, f"Failed to refresh download URL: {err}"
-            # Retry download with new URL
+        try:
            response = safe_get(download_url, resume_header, stream=True, timeout=120)
-            
-        response.raise_for_status()
+        except requests.exceptions.HTTPError as e:
+            if e.response is not None and e.response.status_code == 401:
+                # Handle 401 Unauthorized from SharePoint (expired download link)
+                logger.warning(f"URL expired for {display_name}. Fetching fresh URL...")
+                download_url, err = get_fresh_download_url(app, drive_id, item_id)
+                if not download_url:
+                    return False, f"Failed to refresh download URL: {err}"
+                response = safe_get(download_url, resume_header, stream=True, timeout=120)
+            else:
+                raise
        
        with open(local_path, file_mode) as f:
            for chunk in response.iter_content(chunk_size=CHUNK_SIZE):