一个功能强大的Python脚本,可让您使用Telethon库从电报频道刮擦消息和媒体。功能包括实时连续刮擦,媒体下载和数据导出功能。
________________________________
\ ____/_____///_____//
| |/\ ___ \ _____ \ \
| | \ \ _ \ \ \/\
| _____ | \ _____ /_______//
\/\/
功能
从多个电报频道下载媒体文件(照片,文档)实时连续刮口到JSON和CSV格式SQLITE数据库存储功能(保存进度)媒体重新定位以进行媒体的下载,以跟踪交互式菜单3010-110,
Python 3.7或更高的Telegram帐户API凭据
先决条件
PIP install -R Euncess.txt要求的内容.txt:
电视
aiohttp
asyncio
需要Python软件包
Visit https://my.telegram.org/auth Log in with your phone number Click on 'API development tools' Fill in the form: App title: Your app name Short name: Your app short name Platform: Can be left as 'Desktop' Description: Brief description of your app Click 'Create application' You'll receive: API_ID: A数字API_HASH:一串字母和数字确保这些凭据安全,您需要它们运行脚本!
010-110克隆repository: git克隆https://github.com/unnohwn/telegram-scraper.git
CD Telegram-Scraper安装需求: PIP install -r Euncess.txt运行脚本: Python Teletram-scraper.py在第一次运行时,您会提示您进入:您的API ID您的API ID您的API HASH您的API HASH您的电话号码(带有乡村代码)您的电话号码(带有乡村代码)或BOT,但在提示次数时使用电话号码。验证代码(发送到您的电报)
获取电报API凭据
首次刮擦频道时,请注意:
该脚本将尝试检索整个频道历史记录,从最初的最初刮擦开始可能需要几分钟甚至几个小时,具体取决于:频道中的消息总数,无论是否启用媒体下载是否能够下载媒体的大小和媒体文件的大小和数量您的互联网连接速度限制脚本限制脚本的脚本使用脚本的脚本限制了PAIGINATION pAINAINS PAIGINATION pAGINATION和VAIN STACTED STACTER STRACTER STRACTER STRACTIND IT STRACTIND IT SCRIENS IT SCRAITIND IT STREACTIND IT依次进行,因此该状态的范围是在其上的差异。数据库被刮擦,因此您甚至可以在刮擦完成之前开始分析可用数据
设置和运行
脚本提供了一个交互式菜单,其中包含以下选项:
[A] Add new channel Enter the channel ID or channelname [R] Remove channel Remove a channel from scraping list [S] Scrape all channels One-time scraping of all configured channels [M] Toggle media scraping Enable/disable downloading of media files [C] Continuous scraping Real-time monitoring of channels for new messages [E] Export data Export to JSON and CSV formats [V] View saved channels List all saved channels [L] List帐户频道列出了带有ID:的所有频道,用于帐户[q]退出
初始刮擦行为
您可以使用3:-频道用户名(例如,频道名称) - 频道ID(例如-1001234567890)
用法
通道ID
数据存储在sqlite数据库中,一个每个通道: -location: -location:/channelname/channelname/channelname.db -table:消息-ID: telegram ID -first_name:发件人的名字- last_name:发件人的姓氏-username:发件人的用户名-Message:消息文本-iedia_type:媒体类型的类型
数据存储
媒体文件存储在: -location:/channelname/media/-文件使用消息ID或原始文件名命名
数据库结构
数据可以以两种格式导出:1。csv3:/channelname/channelname.csv-人类- 可读的电子表格格式- 易于导入到Excel/Google中
JSON:/channelname/channelname.json Structured data format Ideal for programming processing
媒体存储
导出数据
The continuous scraping feature ([C] option) allows you to: - Monitor channels in real-time - Automatically download new messages - Download media as it's posted - Run indefinitely until interrupted (Ctrl+C) - Maintains state between runs
详细功能
脚本可以下载:-照片- 文档- 电报支持的其他媒体类型- 自动检索失败下载- 跳过现有文件以避免重复
连续刮擦
脚本包括:-失败媒体下载的自动重试机制- 在中断的情况下,状态保存- 洪水控制合规性- 错误记录失败操作的错误记录
媒体处理
尊重电报的费率限制只能访问公共频道或频道您是媒体下载尺寸限制的成员,根据电报的限制
错误处理
贡献!请随时提交拉动请求。
限制
此项目是根据MIT许可证获得许可的- 有关详细信息,请参见许可证文件。
贡献🤝
此工具仅用于教育目的。确保TO :-尊重Telegram的服务条款- 在刮擦之前获得必要的权限- 在负责和道德上使用- 符合数据保护法规