数据压缩/参考资料
外观
< 数据压缩
- 坎特伯雷语料库 (1997) 是用于比较压缩方法的主要基准。在这 11 个文件中,最大的文件大约为 1 MB。该网页还链接到一些其他测试文件,这些文件对于调试压缩算法中的常见错误很有用。
- 西里西亚语料库 (2003) 包含文件大小在 6 MB 到 51 MB 之间。这 12 个文件包括两张医学图像、SAO 星星目录、一些可执行文件等等。
- Matt Mahoney 发布了一个大型基准文本文件,用于 "大型文本压缩基准"
- 一个由 Andrew Tridgell 维护的 大型文件文本压缩语料库 面向相对较大、高度冗余的文件。它包含 5 个文件,大小在 27 MB 到 85 MB 之间(未压缩),主要是英语文本以及 Lisp、汇编和 C 源代码。它有助于测试(实现)旨在检测和压缩极长距离冗余的压缩算法,例如 lzip[2] 和 rzip[3].
- "卡尔加里语料库"[4][5] 是一个包含 14 个文件的系列,其中大多数是 ASCII 文本,并且是卡特伯里语料库之前用于比较无损压缩器的实际标准。
- "卡尔加里语料库压缩和 SHA-1 破解挑战" (以前称为 "卡尔加里语料库压缩挑战") 由 Leonid A. Broukhis 创建,为卡尔加里语料库中所有 14 个文件的 "显著更好" 压缩提供了一些大约 100 美元的奖金。
- "数据压缩新闻博客" 由 Sachin Garg 编辑。Sachin Garg 还发布了 基准图像和图像压缩基准结果.
- Lasse Collin 在他的 可执行压缩基准 中使用开源软件。
- 大象梦:原始无损视频和音频可用:Matt 建议 "如果能看到大象梦成为视频和音频压缩测试的新标准源素材,那就太好了!"。
- Alex Ratushnyak 维护着 无损照片压缩基准.
- "Xiph.org 视频测试媒体 (derf 的收藏)" -- 它包括 "SVT 高清晰度多格式测试集".
- 滑铁卢 BragZone 仓库(在哪里?)(它的一些(所有?)图像可以在 http://links.uwaterloo.ca/Repository.html 获取)
大多数数据压缩算法的创建者倾向于以开源实现(主要是 BSD 兼容许可证,而不是 GPL)发布它们。开源带来的好处是,它充当开放式审查和参与号召,使算法更容易通过结合来自多个来源的想法(由于开放式许可证兼容性,甚至更多)来演化。此外,通过开源,算法可以迅速被采用并获得市场份额和优势,甚至可以自行存档或在利基实现中存档,当然,这也是一些算法仍然闭源的原因,尤其是在它们提供明显的商业优势超过竞争对手(商业或非商业)时。
- 压缩接口标准 由 Ross Williams 创建。是否有更好的压缩算法接口标准?
- jvm-compressor-benchmark 是一个基准套件,用于比较 JVM 平台上开源压缩编解码器的时空间性能。它目前包括坎特伯里语料库和其他一些基准文件集,并比较了 LZF、Snappy、LZO-java、gzip、bzip2 和其他一些编解码器。(jvm-compressor-benchmark 用于与这些编解码器通信的 API 是否是压缩算法的良好接口标准?)
- inikep 已整理出一个基准,用于比较可以编译为 C++ 的开源压缩编解码器的时空间性能。它目前包括 100 MB 的基准文件(bmp、dct_coeffs、english_dic、ENWIK、exe 等等),并比较了 snappy、lzrw1-a、fastlz、tornado、lzo 和其他一些编解码器。
- "压缩简易方式" 一个简单的 C/C++ LZW 实现(可变位长 LZW 实现),在一个 .h 文件和一个 .c 文件中,没有依赖项。
- BALZ 由 Ilia Muraviev 创建 - 第一个 ROLZ 压缩开源实现[1]
- QUAD - 由 Ilia Muraviev 创建的一个基于 ROLZ 的开源压缩器
- LZ4 "世界上最快的压缩库" (BSD 许可证)
- QuickLZ "世界上最快的压缩库" (GPL 和商业许可证)
- FastLZ "免费、开源、可移植的实时压缩库" (MIT 许可证)
- .xz 文件格式 (7-Zip 和 LZMA SDK 支持的压缩文件格式之一) 支持 "多个过滤器(算法):... 开发人员可以使用开发人员特定的过滤器 ID 空间进行实验性过滤器。" 和 "过滤器链接:最多可以链接四个过滤器,这与 UN*X 命令行上的管道非常类似。"。
- "Puff -- 一个简单的 Inflate" 由 Mark Adler 创建。编写得非常易于阅读,有助于理解 deflate 数据格式。与 zlib 相比,它使用更少的 RAM 和代码大小。
- libarchive (win32 LibArchive): 用于读取和写入流式存档的库。bsdtar 归档程序基于 LibArchive。LibArchive 模块化程度很高。“旨在……使其相对容易添加新的归档格式和压缩算法”。LibArchive 可以读取和写入(包括压缩和解压缩)各种归档格式的存档文件,包括“.tgz”和“.zip”格式。BSD 许可证。libarchive 愿望清单.
- WebP 是一种新的图像格式,为 Web 上的图像提供无损和有损压缩。“与 PNG 相比,WebP 无损图像的大小减少了 26%。与 JPEG 相比,WebP 有损图像在等效 SSIM 指标下的大小减少了 25-34%。”WebP 显然是*唯一*一种受网络浏览器支持的格式,它支持同一图像中的有损压缩和 Alpha 通道。当在 Chrome for Android 中启用实验性的“数据压缩代理”时,所有图像都将被转码为 WebP 格式。[2] BSD 许可证。
- VP8 和 WebM 视频压缩……
- Ogg 容器格式,通常包含 Vorbis、Speex 或 FLAC 格式的压缩音频,有时还包含 Theora 或 Dirac 格式的压缩视频等。
进一步阅读
[edit | edit source]- Unix 命令指南/文件压缩 提供了一些有关如何使用数据压缩的实用信息
- Fedora 和 Red Hat 系统管理/存档和压缩 提供了一些有关如何使用压缩的实用信息
- JPEG - 思想和实践 提供了有关压缩技术如何应用于 JPEG 图像压缩的具体细节的更详细的信息。
- 数据编码理论/数据压缩
- Kdenlive/视频编解码器 简要提到了最流行的视频编解码器
- 电影制作手册/后期制作/视频编解码器 更详细地讨论了电影和视频制作中使用的最流行的视频编解码器。
- 电影制作手册/摄影/相机和格式/格式表 列出了最流行的压缩和未压缩视频格式
- 概率
- hydrogenaudio wiki 提供了 流行无损音频压缩编解码器的比较。
- 数据压缩维基
- 数据压缩维基
非维基资源
[edit | edit source]- "comp.compression" 新闻组
- "Comp.compression 常见问题解答"
- comp.compression 常见问题解答 由 Jean-loup Gailly 1999 年撰写。(是否有更新的常见问题解答?)
- http://data-compression.info/ 提供了有关几种压缩算法、几个“数据压缩语料库”(数据压缩基准文件)以及在这些基准上运行各种数据压缩程序的结果(测量压缩大小、压缩时间和解压缩时间)的信息。
- "数据压缩详解" 由 Matt Mahoney 撰写。它讨论了许多在大多数其他数据压缩讨论中被忽略的内容。例如,典型归档格式的实际功能(珍贵压缩数据周围的薄包装),数据压缩与人工智能之间的密切关系等等。
- Mark Nelson 撰写了关于数据压缩的文章
- Mark Nelson 和 Jean-loup Gailly。 "数据压缩手册"。1995 年。ISBN 1-55851-434-1.
- Encode 论坛 声称是“可能是网络上关于数据压缩软件和算法的最大论坛”。
- "LZW 争议" 由 Stuart Caie 撰写。(LZ78、LZW、GIF、PNG、Unisys、专利等)
- "理解 gzip" 由 Zachary Vance (za3k) 撰写。对三个 gzip 文件(以及 deflate 数据格式)进行了非常详细的逐位分析。