Merge ad44657a7a into 73bf102116

2025-06-28 01:18:30 +00:00 · 2025-06-19 02:29:32 +09:00 · 2025-06-19 02:29:32 +09:00 · 4682311443
commit 4682311443
parent 73bf102116 ad44657a7a
1 changed files with 93 additions and 25 deletions
--- a/yt_dlp/extractor/appleconnect.py
+++ b/yt_dlp/extractor/appleconnect.py
@ -1,47 +1,115 @@
 import base64
 import json
 from .common import InfoExtractor
-from ..utils import ExtractorError, str_to_int
+from ..utils import (
    extract_attributes,
    float_or_none,
    parse_resolution,
    qualities,
    url_or_none,
    urljoin,
 )
 from ..utils.traversal import (
    find_element,
    require,
    traverse_obj,
 )
 class AppleConnectIE(InfoExtractor):
-    _VALID_URL = r'https?://itunes\.apple\.com/\w{0,2}/?post/(?:id)?sa\.(?P<id>[\w-]+)'
+    IE_NAME = 'apple:music:connect'
    IE_DESC = 'Apple Music Connect'
    _BASE_URL = 'https://music.apple.com'
    _QUALITIES = {
        'provisionalUploadVideo': (None, None),
        'sdVideo': (640, 480),
        'sdVideoWithPlusAudio': (640, 480),
        'sd480pVideo': (720, 480),
        '720pHdVideo': (1280, 720),
        '1080pHdVideo': (1440, 1080),
    }
    _VALID_URL = r'https?://music\.apple\.com/\w{0,2}/post/(?P<id>\d+)'
    _TESTS = [{
-        'url': 'https://itunes.apple.com/us/post/idsa.4ab17a39-2720-11e5-96c5-a5b38f6c42d3',
+        'url': 'https://music.apple.com/us/post/1018290019',
        'md5': 'c1d41f72c8bcaf222e089434619316e4',
        'info_dict': {
-            'id': '4ab17a39-2720-11e5-96c5-a5b38f6c42d3',
+            'id': '1018290019',
            'ext': 'm4v',
            'title': 'Energy',
-            'uploader': 'Drake',
+            'duration': 177.911,
-            'thumbnail': r're:^https?://.*\.jpg$',
+            'thumbnail': r're:https?://.+\.png',
            'upload_date': '20150710',
-            'timestamp': 1436545535,
+            'uploader': 'Drake',
        },
    }, {
-        'url': 'https://itunes.apple.com/us/post/sa.0fe0229f-2457-11e5-9f40-1bb645f2d5d9',
+        'url': 'https://music.apple.com/us/post/1016746627',
-        'only_matching': True,
+        'info_dict': {
            'id': '1016746627',
            'ext': 'm4v',
            'title': 'Body Shop (Madonna) - Chellous Lima (Acoustic Cover)',
            'duration': 210.278,
            'thumbnail': r're:https?://.+\.png',
            'upload_date': '20150706',
            'uploader': 'Chellous Lima',
        },
    }]
    def _real_extract(self, url):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)
-        try:
+        js_url = traverse_obj(webpage, (
-            video_json = self._html_search_regex(
+            {find_element(tag='script', attr='crossorigin', value='', html=True)},
-                r'class="auc-video-data">(\{.*?\})', webpage, 'json')
+            {extract_attributes}, 'src', {urljoin(self._BASE_URL)}, {require('JS URL')}))
-        except ExtractorError:
+        js = self._download_webpage(js_url, video_id)
            raise ExtractorError('This post doesn\'t contain a video', expected=True)
-        video_data = self._parse_json(video_json, video_id)
+        header = base64.urlsafe_b64encode(
-        timestamp = str_to_int(self._html_search_regex(r'data-timestamp="(\d+)"', webpage, 'timestamp'))
+            json.dumps({
-        like_count = str_to_int(self._html_search_regex(r'(\d+) Loves', webpage, 'like count', default=None))
+                'alg': 'ES256',
                'typ': 'JWT',
                'kid': 'WebPlayKid',
            }, separators=(',', ':')).encode(),
        ).decode().rstrip('=')
        jwt = self._search_regex(
            fr'(["\'])(?P<jwt>{header}(?:\.[\w-]+){{2}})\1', js, 'JSON Web Token', group='jwt')
        videos = self._download_json(
            'https://amp-api.music.apple.com/v1/catalog/us/uploaded-videos',
            video_id, headers={
                'Authorization': f'Bearer {jwt}',
                'Origin': self._BASE_URL,
            }, query={'ids': video_id, 'l': 'en-US'})
        attributes = traverse_obj(videos, (
            'data', ..., 'attributes', any, {require('video information')}))
        formats = []
        quality = qualities(list(self._QUALITIES.keys()))
        for format_id, src_url in traverse_obj(attributes, (
            'assetTokens', {dict.items}, lambda _, v: url_or_none(v[1]),
        )):
            formats.append({
                'ext': 'm4v',
                'format_id': format_id,
                'quality': quality(format_id),
                'url': src_url,
                **parse_resolution(src_url),
                **traverse_obj(self._QUALITIES, (format_id, {
                    'height': 1,
                    'width': 0,
                })),
            })
        return {
            'id': video_id,
-            'url': video_data['sslSrc'],
+            'formats': formats,
-            'title': video_data['title'],
+            'thumbnail': self._html_search_meta(
-            'description': video_data['description'],
+                ('og:image', 'og:image:secure_url', 'twitter:image'), webpage),
-            'uploader': video_data['artistName'],
+            **traverse_obj(attributes, {
-            'thumbnail': video_data['artworkUrl'],
+                'title': ('name', {str}),
-            'timestamp': timestamp,
+                'duration': ('durationInMilliseconds', {float_or_none(scale=1000)}),
-            'like_count': like_count,
+                'upload_date': ('uploadDate', {str}, {lambda x: x.replace('-', '')}),
                'uploader': (('artistName', 'uploadingArtistName'), {str}, any),
                'webpage_url': ('postUrl', {url_or_none}),
            }),
        }